AULA: ESTATÍSTICA DESCRITIVA Vicente Garibay e Josemar Rodrigues oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são pessoas que coletam esses dados. •A estatística originou-se com a coleta e construção de tabelas de dados para os governos • A situação evoluiu e esta coleta de dados representa somente um dos aspectos da estatística. 2 Definição de Estatística A estatística é uma ciência (ou método) baseada na teoria de Probabilidades, cujo objetivo principal é nós auxiliar a tomar decisões ou tirar conclusões em situação de incerteza, a partir de informações numéricas. 3 Estatística 4 AMOSTRAGEM Uma área importante em muitas aplicações Estatísticas é a da Tecnologia de Amostragem. Exemplos de Aplicação: • Pesquisa de mercado, • Pesquisa de opinião, • Avaliação do processo de produção, • Praticamente em todo experimento. 5 Amostragem Aleatória Cada elemento da população tem a mesma chance de ser escolhido. Amostragem Estratificada Classificar a população em, ao menos dois estratos e extrair uma amostra de cada um. Amostragem Sistemática Escolher cada elemento de ordem k. 6 Amostragem por Conglomerados Dividir em seções a área populacional, selecionar aleatoriamente algumas dessas seções e tomar todos os elementos das mesmas. Amostragem de Conveniência Utilizar resultados de fácil acesso. 7 ESTATÍSTICA DESCRITIVA A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou está área da estatística. 8 PROBABILIDADE A teoria de probabilidades nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza. 9 Exemplo 1 Numa pesquisa eleitoral, um instituto de pesquisa procura, com base nos resultados de um levantamento aplicado a uma amostra da população, prever o resultado da eleição. 10 Na eleição Presidencial Os Institutos de Pesquisa de opinião colhem periodicamente amostras de eleitores para obter as estimativas de intenção de voto da população. As estimativas são fornecidas com um valor e uma margem de erro. O quadro do Instituto Toledo & Associados, a seguir refere-se à intenção de voto no 1º turno das eleições para o governo em 2002. 11 Intenção de voto para presidente do Brasil-2002 Voto estimulado,em % do total de votos.A ultima pesquisa ouviu 2.202 eleitores- Margem de erro de 2,09% 46,3% 34,9% 40,5% Lula(PT) 34,3% 33,6% 22,8% 23,3% Serra(PSDB) 17,6% 13,8% Ciro(PPS) Garotinho(PSB) 12,6% Mai o 13,8% 12,1% 14,8% 9,0% 11,3% 10,5% Juni o Jul /Ago Set/Out Fonte:Pesquisa toledo& Associados. 12 Confronto no segundo turno. 13 14 Variável Qualquer característica associada a uma população Classificação de variáveis Qualitativa Quantitativa Nominal Ordinal Contínua Discreta sexo, cor dos olhos Classe social, grau de instrução Peso, altura, Número de filhos, número de carros, 15 Tabela 1.1 Informação do estado civil, grau de instrução, número de filhos, idade e procedência de 36 funcionários sorteados ao acaso de um empresa. No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Estado Civil Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Solteiro Casado Solteiro Solteiro Casado Casado Solteiro Casado Casado Solteiro Solteiro Casado Solteiro Solteiro Casado Casado Casado Solteiro Casado Casado Casado Solteiro Casado Casado Solteiro Casado Casado Grau de Instrução 10 grau 10 grau 10 grau 20 grau 10 grau 10 grau 10 grau 10 grau 20 grau 20 grau 20 grau 10 grau 20 grau 10 grau 20 grau 20 grau 20 grau 10 grau Superior 20 grau 20 grau 20 grau 10 grau Superior 20 grau 20 grau 10 grau 20 grau 20 grau 20 grau Superior 20 grau Superior Superior 20 grau Superior No de filhos 1 2 0 1 2 3 0 1 2 1 0 2 2 0 5 2 1 3 2 3 Salário (X Sal. Min) 4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,59 7,44 8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76 11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99 16,22 16,61 17,26 18,75 19,40 23,30 Idade Região de anos meses procedência 26 03 Interior 32 10 Capital 36 05 Capital 20 10 Outro 40 07 Outro 28 00 Interior 41 00 Interior 43 04 Capital 34 10 Capital 23 06 Outro 33 06 Interior 27 11 Capital 37 05 Outro 44 02 Outro 30 05 Interior 38 08 Outro 31 07 Capital 39 07 Outro 25 08 Interior 37 04 Interior 30 09 Outro 34 02 Capital 41 00 Outro 26 01 Outro 32 05 Interior 35 00 Outro 46 07 Outro 29 08 Interior 40 06 Interior 35 10 Capital 31 05 Outro 36 04 Interior 43 07 Capital 33 07 Capital 48 11 Capital 42 02 Interior 16 Variáveis Quantitativas MEDIDAS DE POSIÇÃO: Moda, Média, Mediana, Percentís, Quartis. MEDIDAS DE DISPERSÃO: Amplitude, Intervalo-Interquartil, Variância, Desvio Padrão, Coeficiente de Variação. 17 Medidas de Posição Moda(mo): É o valor (ou atributo) que ocorre com maior freqüência.Moda Ex: 4,5,4,6,5,8,4,4 Mo = 4 18 Média n x 1 x x 2 x 3 ... n x n x i 1 i n Ex:2,5,3,7,8 Média = [(2+5+3+7+8)/5]=5 19 Mediana A mediana é o valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Posição da mediana: (n+1)/2 Ex: 2,5,3,7,8 Dados ordenados: 2,3,5,7,8 => (5+1)/2=3 => Md = 5 Ex: 3,5,2,1,8,6 Dados ordenados:1,2,3,5,6,8 => (6+1)/2=3,5 => Md=(3+5)/2=4 20 Percentis ou Quantis O percentil (ou quantil) de ordem p, em um conjunto de dados de tamanho n, é o valor da variável que ocupa a posição px(n+1) do conjunto de dados ordenados. O percentil de ordem p deixa px100% das observações abaixo dele na amostra ordenada. Casos Particulares: Percentil 0,5= mediana ou segundo quartil (md) Percentil 0,25= primeiro quartil (Q1) Percentil 0,75= terceiro quartil (Q3) 21 Exemplos Ex(1): 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 =>n=10 Posição Md:0,5(n+1)=0,5x11=>Md=(3+3,1)/2=3,05 Posição de Q1:0,25(11)=2,75=> Q1=(2+2,1)/2=2,05 Posição de Q3:0,75(11)=8,25=>Q3=(3,7+6,1)/2=4,9 Ex(2):0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6 =>n=11 Md=5,3 Q1=1,7 Q3=12,9 22 Exemplo 2: Considere as notas de um teste de 3 grupos de alunos: Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5. G1 G2 G3 0 10 10 0 0 10 5 Temos: x1 x3 x3 5 Md1 Md 3 Md 3 5 23 Medidas de Dispersão Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude (A): A=máx-min Para os grupos anteriores, temos: Grupo 1, A=4 Grupo 2, A=8 Grupo 3, A=0 24 Intervalo-Interquartil (d) É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, d= Q3-Q1 Ex(1): 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 Q1=2,05 e Q3=4,9 d =Q3-Q1=4,9-2,05=2,85 25 Variância n ( x x ) ... ( x x ) ( x ) x 1 2 n 2 S 2 2 n 1 2 2 x x i i 1 n 1 Desvio padrão S Desvio Padrão Variância 26 Cálculo da variância para o grupo 1: G1:3, 4, 5, 6, 7: Vimos que: x 5 2 2 2 2 2 ( 3 5 ) ( 4 5 ) ( 5 5 ) ( 6 5 ) ( 7 5 ) 10 S2 2,5 5 1 4 Desvio padrão S 2,5 1,58 2 G1 : S 2,5 S 1,58 G 2 : S 10 S 3,16 G3 : S 0 S 0 2 2 27 Coeficiente de Variação (CV) É uma medida de dispersão relativa; Elimina o efeito da magnitude dos dados; Exprime a variabilidade em relação a média S CV 100% X 28 Exemplo 4: Altura e peso de alunos Média Desvio padrão Coeficiente de variação Altura Peso 1,143m 50Kg 0,063m 5,5% 6kg 12% Conclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto a altura 29 Exemplo 3: Alturas de meninos de uma amostra e altura de homens adultos de outra amostra. Média Desvio padrão Coeficiente de variação Meninos 50cm 6cm 12% Homens 160cm 16cm 10% Conclusão: Em relação ‘as médias, as alturas dos homens e dos meninos apresentam variabilidade quase iguais. 30 ORGANIZAÇÃO E REPRESENTAÇÃO DOS DADOS Uma das formas de organizar e resumir a informação contida em dados observados é por meio de tabela de freqüências e gráficos. Tabela de freqüência: relaciona categorias (ou classes) de valores, juntamente com contagem (ou freqüências) do número de valores que se enquadram em cada categoria ou classe. 1. Variáveis qualitativas: Podemos construir tabela de freqüência que os quantificam por categoria de classificação e sua representação gráfica é mediante gráfico de barras, gráfico setorial ou em forma de pizza. 31 Exemplo 1: Considere ao variável grau de Instrução dos dados da tabela 1.(Variável qualitativa) Grau de instrução fi f ri Contagem fi f ri 1o Grau 12 0,3333 2o Grau 18 0,5000 Superior 6 0,1667 total n=36 1,0000 :Frequência absoluta da categoria i (número de indivíduos que pertencem à categoria i fi :Frequência relativa da classe i n 32 Representação gráfica de variáveis qualitativos • Barras horizontais ou verticais • Diagramas circulares ou “pizza” Diagrama de barras para a variável grau de instrução 60,00% 50,00% 50,00% 40,00% 33,33% 30,00% 20,00% 16,70% 10,00% 0,00% 1o Grau 2o Grau Superior 33 Diagrama circular para a variavel grau de instrução 1o Grau (33.3%) Diagrama circular para a variável grau de instrução Superior 17% 2o Grau (50.0%) 1o Grau 33% Superior (16.7%) 2o Grau 50% 34 2. Organização e representação de variáveis quantitativas 2.1 Quantitativas discretos: Organizam-se mediante tabelas de frequências e a representação gráfica é mediante gráfico de barras ou gráfico de linha Exemplo: Considere a variável número de filhos dos dados da tabela 1. Tabela 2.1:Distribuição de freqüências de funcionários da empresa, segundo o número de filhos i 1 2 3 4 5 Número de filhos (Xi ) 0 1 2 3 5 total Número de funcionários (fi ) 4 5 7 3 1 20 % de funcionários (fri) 20% 25% 35% 15% 5% 100% 35 Observação 1: A partir da tabela 2.1 podemos recuperar as 20 observação da tabela 1.1, ou seja, aqui não temos perda de informação dos dados originais. Representação gráfica 35% 35 % de funcionários 25% 25 20% 15% 15 5% 5 0 1 2 3 4 5 Número de filhos 36 Determinação das medidas de posição e medidas de dispersão para variáveis quantitativas discretas agrupados em tabela de freqüências: k • Média: X X 1 f1 X 2 f 2 X k f k n X i fi i 1 n Exemplo: Considere a tabela 2.1 e determine a média de filhos dos funcionários. X 0 4 1 5 2 7 3 3 5 1 33 1,65 20 20 • Mediana: Dados ordenados: 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 5 => (20+1)/2=10,5 => Md = 2 37 • Variância: k ( X 1 X ) 2 f1 ( X 2 X ) 2 f 2 ( X k X ) 2 f k 2 S n 1 Cálculo da variância para os dados da tabela 2.1 (X i X )2 fi i 1 n 1 4(0 1,65) 2 5(1 1,65) 2 7(2 1,65) 2 3(3 1,65) 2 (5 1,65) 2 S 19 16,3125 0,858553 19 2 Desvio padrão: S S 2 0,858553 0,927 38 2.2 Procedimento de construção de tabelas de freqüência para variáveis contínuas: 1. Escolha o número de intervalos de classe (k) 2. Identifique o menor valor (MIN) e o valor máximo (MAX) dos dados. 3. Calcule a amplitude dos dados (A): A=MAX –MIN 4. Calcule o comprimento de cada intervalo de classe (h): h A k 5. Arredonde o valor de h de forma que seja obtido um número conveniente. 6. Obtenha os limites de cada intervalo de classe. PRIMEIROINT ERVALO: Limiteinferior : LI1 MIN Limitesuperior : LS1 LI1 h 39 SEGUNDO INTERVALO: Limiteinferior : LI 2 LS1 Limitesuperior : LS 2 LI 2 h i - ÉSIMO INT ERVALO: Limiteinferior : LI i LSi 1 Limitesuperior : LSi LI i h Continue estes cálculos até que seja obtido um intervalo que contenha o maior valor dos dados (MAX) entre os seus limites. 7. Construa uma tabela de distribuição de freqüências, constituída pelas seguintes colunas: • Número de ordem de cada intervalo (i) • Limites de cada intervalo. Os intervalos são fechados á esquerda e aberta à direita: NOTAÇÃO:|---- 40 • Ponto médio (ou marca de classe) de cada intervalo de classe: X í´ LSi LIi 2 • Contagem dos dados pertencentes a cada intervalo. •Freqüências absolutas de cada intervalo de classe. •Freqüências relativas de cada intervalo de classe. •Freqüências acumuladas absolutas de cada intervalo de classe. Fi f 1 f 2 f i i f j j 1 •Freqüências acumuladas relativa de cada intervalo de classe. Fri f r1 f r2 f ri i j 1 Fi f rj ; ou Fri n 41 Exemplo: Considere a variável salário da empresa comercializadora de produtos de informática. Procedimento: 1. Considere k=5. 2. MIN=4; MAX=23,30. 3. A=MAX-MIN=23,30-4=19,30 4. h=19,3/5=3,86 5. h3,9 6. Cálculo dos limites de cada intervalo: PRIMEIROINT ERVALO LI1 4 LS1 4 3,9 7,9 SEGUNDO INT ERVALO LI 2 7,9 LS 2 7,9 3,9 11,8 Os demais limites dos procedimento anterior. intervalos foram gerados seguindo o 42 • Ponto médio: X 1´ 4 7,9 5,95; 2 X 2´ 7,9 11,8 9,85 2 De forma similar obtém-se os outros pontos médios. Tabela 2.2: Distribuição de freqüências da variável salário. i Intervalos de classe 1 2 3 4 5 4,0 |-- 7,9 7,9 |-- 11,8 11,8 |-- 15,7 15,7 |-- 19,6 19,6 |-- 23,5 Total Ponto médio Freqüência Freqüência (X´i) Absoluta (fi) Relativa ( f ri ) Freqüência Acumulada Absoluta (Fi) Freqüência Acumulada Relativa ( Fri ) 10 12 7 6 1 36 10 22 29 35 36 0,277778 0,611111 0,805556 0,972222 1 5,95 9,85 13,75 17,65 21,55 0,277778 0,333333 0,194444 0,166667 0,027778 1,000000 Nesta organização de dados, temos perda de informação dos dados originais 43 Representação gráfica: • Histograma de freqüências absolutas (ou relativas (em %)) 33,33% % de funcionários 30 27,78% 19.44% 20 16,67% 10 2,7% 0 4.0 7.9 11.8 15.7 19.6 23.5 Salário 44 • Polígono de freqüências absolutas (ou relativas (em %)) 35,00% % de funcionários 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 0 10 20 30 Salário 45 Histograma de freqüência acumulada relativa (em %) Frequência acumulada percentual (%) • 97,22% 100 100% 80,56% 61,11% 50 27,78% 0 4.0 7.9 11.8 15.7 19.6 23.5 Salario 46 Porcentagem •Polígono de freqüência acumulada relativa (ogiva) 120% 100% 80% 60% 40% 20% 0% 0 4 8 12 16 20 24 28 Salário 47 Medidas de posição e medidas de dispersão para variáveis contínuas agrupadas em tabela de freqüências. k • Média: X X 1´ f1 X f 2 X f k n ´ 2 ´ k X ´ i fi i 1 n Exemplo: Considere a tabela 2.2 5,95 10 9,85 12 13,75 7 17,65 6 21,55 1 36 401,4 11,15 35 X Se calculamos a média para dados não agrupados apresentadas anteriormente resulta: X X 1 X 2 X 36 4 4,36 23,30 11,122 36 36 Este resultado difere do valor obtido anteriormente. Porque? 48 • Moda (mo): d1 h mo LIi d1 d 2 i : Classe modal (é aquela classe que tem maior frequência absoluta (f i )) LI i : é o limiteinferior da classe modal. d 1 f i f i 1 d 2 f i f i 1 h : comprimento do intervalo de classe. Exemplo: Considere a tabela 2.2. Já que, f 2 12 f j j 2 TDF i =2, é a classe modal d1 12 10 h 7,9 3,9 9,014 mo LI 2 (12 10) (12 7) d1 d 2 49 • Mediana (Md) 0,5n Fi 1 h Md LI i fi i : é a classe médiana (é o intervalo de classe onde a coluna dos Fi na T DF superou o 50% dos dados) LI i : Limiteinferior da classe mediana. Fi-1 : é a frequência acumulada absoluta da classe anterior a classe mediana f i : frequência absoluta da classe mediana. h : comprimento do intervalo de classe. Exemplo: Considere a tabela 2.2 Já que, F2 22 n / 2 i =2, é a classe mediana 0,5n F1 18 10 h 7,9 Md LI 2 3,9 8,55 f 12 1 50 f X 2 k • Variância: i S2 ´ i X i 1 n 1 Exemplo: Considere a tabela 2.2. Vimos que i Intervalos de classe 4,0 |-- 7,9 7,9 |-- 11,8 11,8 |-- 15,7 15,7 |-- 19,6 19,6 |-- 23,5 Total 1 2 3 4 5 f X S2 X´i fi f i X i´ X 5,95 9,85 13,75 17,65 21,55 10 12 7 6 1 36 270,40 20,28 47,32 253,50 108,16 699,66 2 2 5 i X 11,15 ´ i X i 1 36 1 699,66 19,99029 35 S 4,47105(Desvio Padrão) 51 Boxplot O BOXPLOT representa os dados através de um retângulo construído com os quartis e fornece informação sobre valores extremos. (veja o esquema embaixo) 52 Exemplo de construção de um Boxplot. Com a finalidade de aumentar o peso (em Kg) um regime alimentar foi aplicado em 12 pessoas. Os resultados (ordenados) foram: -0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2. Calculando as medidas temos: Mediana (md ou Q2) = 5,6kg 1º.quartil (Q1) = 3,3kg 3º.quartil (Q3) = 6,25kg d=intervalo interquartil = Q3-Q1 =2,95kg Logo as linhas auxiliares correspondem aos pontos: Q1-1,5d = -1,25kg Q3+1,5d = 10,675kg 53 Exemplo: Considere os dados da tabela 1.1, o boxplot para variável salário por educação e região de procedência dos funcionários da empresa. 54 Boxplot de Salário por educação Boxplot de Salário por educação 25 Grau Instrucao 15 2 1 5 1 2 3 5 Grau de Instrucao 15 25 Salario Boxplot de Salário por região de procedência Região de Procedência Salario 3 Outro Capi tal Interi or 5 15 25 Salario 55 Exemplo: As idades dos 20 ingressantes num certo curso de pós-graduação de uma universidade foram as seguintes: 22, 22,22, 22,23,23, 24, 24, 24,24, 25, 25 26, 26, 26, 26, 27, 28, 35 e 40. (a) Determine a media e mediana. (b) Determine o desvio padrão (c) Construa o “ boxplot” (d) Você identifica valores excepcionais dentre os que foram observados? Se sim remova-os e recalcule os itens (a)-(b). Comente as diferenças encontradas. (e) Dentre as medidas de posição calculada em (a), discuta qual delas seria mais adequada para resumir esse conjunto de dados. 56 Descriptive Statistics Variable Idade N 20 Mean 25.70 Median 24.50 Tr Mean 25.11 Variable Idade Min 22.00 Max 40.00 Q1 23.00 Q3 26.00 StDev 4.47 SE Mean 1.00 Boxplot of Idade 20 30 40 Idade 57 Descriptive Statistics Variable Idade N 18 Mean 24.389 Median 24.000 Tr Mean 24.313 Variable Idade Min 22.000 Max 28.000 Q1 22.750 Q3 26.000 StDev 1.852 SE Mean 0.436 Boxplot of Idade 22 23 24 25 26 27 28 Idade 58 Exemplo: Os dados abaixo referem-se aos instantes de chamadas para atendimentos em uma rodovia em dois dias consecutivos. 1o dia: 0,55 1,30 4,00 5,20 5,20 6,35 6,55 7,42 9,20 9,20 9,30 10,32 10,50 10,40 11,05 11,30 12,10 15,35 16,00 16,10 16,15 17,30 17,35 17,50 17,53, 19,20 20, 35 21,45 22,00 23,15 23,20 23,50. 2o Dia: 4,20 7,00 7,10 8,25 10,10 12,25 12,25 12,40 13,45 14,45 14,45, 15,35 15,20 16,30 15,30 16,42 16,42 17,00 17,00 17,00 19,05 22,55. Faça uma análise descritiva dos dados. 59 Descriptive Statistics Variable Dia I_Chegad 1 2 N Mean Median Tr Mean StDev SE Mean 32 13.00 11.70 13.13 6.61 1.17 22 13.79 14.825 13.832 4.346 0.927 Min Max Q1 Q3 0.55 23.50 7.87 17.52 4.200 22.55 11.713 16.565 Boxplot do instante de chegada dos 2 dias 2 Dia Variable Dia I_Chegad 1 2 1 0 10 20 I_Chegada 60