ESTATÍSTICA aula 1 Prof. Dr. Marco Antonio Leonel Caetano Insper Ibmec São Paulo ESTATÍSTICA “COISAS DO ESTADO” ESTATÍSTICA: - Apresentação e Análise de dados - Tomadas de Decisões baseadas em análises - No N plural l l serve para designar d i os próprios ó i dados d d ESTATÍSTICA DESCRITIVA: - Descreve um certo grupo ESTATÍSTICA S S C INDUTIVA: N U V : - A partir de subconjuntos representativos (amostras) fazem-se induções (leis gerais) sobre o conjunto estudado (população) LIMITAÇÕES TODA informação está contida nos dados. A conclusão, no MÁXIMO terá a qualidade dos dados que a geraram. A estatística apenas p auxilia o ppesquisador, q , mas NÃO dispensa p o espírito crítico científico FRASE CÉLEBRE: Um homem com a cabeça ç na geladeira g e os pés p no fogão, f g , NÃO está vivendo em boa temperatura média. CONCEITOS INTRODUTÓRIOS AMOSTRA subconjunto aleatório de uma população POPULAÇÃO conjunto j c/ características comuns FINITA: quando assume valores em conjunto finito ou infinito enumerável. INFINITA: quando d assume valores em conjunto infinito NÃO enumerável. PROBABILÍSTICAS:seleção ç aleatória em que cada elemento tem uma probabilidade conhecida de fazer parte da amostra. NÃO PROBABILÍSTICAS i t PROBABILÍSTICAS:intencio i nais. DADOS (120 dados amostrados) 61 125 136 126 101 110 90 87 84 118 79 94 109 84 148 55 132 86 91 94 146 99 78 165 113 84 72 77 95 110 159 119 62 103 155 99 87 122 80 115 105 127 96 122 111 122 120 136 155 134 98 104 102 105 151 95 100 101 119 99 95 134 89 141 88 121 118 95 130 136 116 116 148 104 131 87 125 92 97 116 110 110 136 112 172 86 136 116 52 97 140 91 100 119 118 127 108 120 124 113 112 56 71 97 122 124 64 100 131 79 131 100 87 74 125 145 114 119 86 103 100 105 99 111 141 110 160 156 101 66 107 131 141 114 110 66 143 63 124 119 90 98 105 117 130 114 148 149 81 141 134 169 91 150 120 109 144 58 135 128 106 53 92 86 87 97 144 146 117 107 101 117 130 55 132 109 106 117 104 97 131 157 98 118 90 123 94 124 113 116 82 105 98 114 128 148 77 146 107 91 74 127 108 83 67 106 122 105 120 98 82 109 129 137 154 127 171 155 99 109 119 138 139 138 131 99 87 83 96 126 116 136 114 137 80 46 102 96 123 114 132 124 100 119 133 100 134 129 119 80 104 120 121 109 115 106 190 137 168 112 116 91 114 87 109 74 122 131 148 144 139 96 129 120 59 133 112 56 84 178 133 58 114 143 88 140 103 156 105 113 139 110 144 130 87 161 110 133 113 152 94 67 136 145 109 118 120 126 133 95 107 101 92 84 96 119 77 106 71 117 165 93 89 101 89 141 84 77 116 107 98 80 113 124 146 143 111 108 144 154 128 109 118 143 131 140 145 127 117 67 111 116 118 83 141 80 78 136 117 94 130 139 72 139 119 122 78 134 98 115 139 135 103 77 104 153 123 140 129 112 51 129 48 109 99 146 138 89 118 162 78 145 112 137 88 78 86 115 112 65 96 171 125 117 104 66 102 97 106 137 123 82 143 99 151 113 136 135 118 99 105 108 138 135 104 46 105 137 122 92 141 115 134 145 121 116 138 108 146 103 79 129 127 120 TIPOS DE AMOSTRAGEM PROBABILÍSTICAS (1) SIMPLES AO ACASO Todos os elementos da população tem igual probabilidade de serem escolhidos. Procedimento: Enumerar TODOS os elementos da população. Efetuar sorteios Ef i com reposição i ã atéé completar l o tamanho da amostra (n) (2) SISTEMÁTICA Á U d quando Usada d a população l ã está tá ordenada d d Procedimento: Sendo N - tamanho da população n - tamanho t h da d amostra t Calcula-se o intervalo de amostragem N/n ou o inteiro mais próximo “a” a . Sorteia-se um número “x”entre 1 e “a”. Forma-se a amostra dos elementos correspondentes à { x, x + a, x + 2a, 2 x + 3a, 3 ....., x + n-1)a 1) } (3) ESTRATIFICADA População P l ã heterogênea h t ê onde d se distinguem di ti sub-populações mais ou menos homogêneas denominadas EXTRATOS. Procedimento: Divide-se a população em L sub-populações (EXTRATOS) onde n1 + n2 + n3 + ... + nL = N Seleciona-se uma amostra aleatória de cada população. DADOS E VARIÁVEIS Á DADOS OS VARIÁVEIS Característica observada ou medida de alguma maneira. Representação dos Dados QUANTITATIVAS QUALITATIVAS VARIÁVEIS Á QUANTITATIVAS Contínuas: Descrevem dados contínuos Exemplo: hi é a altura do indivíduo “i” Discretas: Di t Descrevem D ddados d somente t com valores inteiros (contagem). Exemplo: Número de alunos aprovados de 2000 a 2003: 25; 29; 20; etc.. VARIÁVEIS QUALITATIVAS Descrevem qualidades, categorias, tipos, etc. Exemplo: X = { Péssimo, Regular, Bom } Y= {Masculino, Feminino} DESCRIÇÃO TABULAR E GRÁFICA DOS DADOS CABEÇALHO Ç Tabela ou Gráfico devem apresentar CORPO RODAPÉ O Cabeçalho ç deve responder p O QUE? (refere ao fato) ONDE? (relativo ao lugar) QUANDO? ((corresponde Q p à época) p ) CABEÇALHO TABELA 3.1 Indivíduos segundo tipo sanguíneo da Região de S.J. Rio Preto-SP,1975 Tipo Sanguíneo O A B AB TOTAL Número de Indivíduos di d 547 441 123 25 1136 Fonte: Garcia (1977) CORPO RODAPÉ GRÁFICO DE COLUNAS No. Indivíduo os Indivíduos Indi íd os segundo seg ndo tipo sanguíneo sang íneo na região de S.J.Rio Preto-SP, 1975 600 500 400 300 200 100 0 O A B Tipo Sanguíneo AB Fonte: Garcia (1977) HISTOGRAMA No. Ind divíduo os IIndivíduos di íd segundo d tipo ti sanguíneo í na região de S.J.Rio Preto-SP, 1975 600 500 400 300 200 100 0 O A B Tipo Sanguíneo AB Fonte: Garcia (1977) GRÁFICO Á DE BARRAS Indivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975 AB Tipo Sanguíneo B A O 0 200 400 No. Indivíduos 600 Fonte: Garcia (1977) GRÁFICO DE LINHAS Indivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975 600 500 400 No. 300 Indivíduos 200 100 0 O A B AB Tipo Sanguíneo Fonte: Garcia (1977 ERRADO !!! SETORES (vulgarmente conhecido como torta, pizza, etc) Indivíduos segundo tipo sanguíneo na região de S.J.Rio Preto-SP, 1975 B 11% AB 2% O 48% A 39% Fonte: Garcia (1977) 22 20 18 16 F Frequência 14 BOX - PLOT 12 10 8 6 4 2 0 26 22 Diâmetro do halo 18 14 10 6 2 Desvio-Padrão Erro Padrão -2 SMUTANS LACIDOPH Meio de Cultura Média Distribuição Normal NO EXCEL...... EXCEL DISTRIBUIÇÕES DE FREQUÊNCIA Dados Brutos Rol Amplitude Total (Range) Freqüência Absoluta Número de Classes Amplitude das Classes Limites das Classes Pontos Médios Freqüência Absoluta Acumulada Direta Freqüência Absoluta Acumulada Inversa Freqüência relativa (1) DADOS BRUTOS: Dados ainda não organizados (2) ROL: É o arranjo dos DADOS BRUTOS em ordem crescente ou decrescente (3) AMPLITUDE TOTAL (RANGE-R): É a diferença entre o maior e o menor valor (4) FREQÜÊNCIA ABSOLUTA: É o número de vezes que o elemento aparece p na amostra, ou o número de elementos pertencentes a uma classe. ((5)) NÚMERO DE CLASSES(K): ( ) Para n < 25 : Para n > 25 : K=5 K≅ n (6) AMPLITUDE DAS CLASSES: h = R / K (7) LIMITE DAS CLASSES: 1,35|----------- 1,40 (8) PONTOS MÉDIOS DAS CLASSES: PM (i ) = LimSup(i ) + LimInf (i ) 2 (9) FREQÜÊNCIA ACUMULADA DIRETA: É a soma das f üê i absolutas freqüências b l t começando d pelo l menor valor l ((10)) FREQÜÊNCIA ACUMULADA INVERSA: É a subtração das freqüências absolutas começando pelo valor total. (11) FREQÜÊNCIA RELATIVA RELATIVA: É a percentagem t do d valor l dos dados em relação ao total da amostra. fi = Freq. Abs.Classe(i ) n n onde ∑ fi = 1 i =1 (100%) TABELA DE CLASSES Classes 1,35| -----1,45 1,45| -----1,55 1,55| -----1,65 1,65| -----1,75 1,75|| -----1,85 1,85| -----1,95 1,95| -----2,05 2,05| , | -----2,15 , TOTAL Freq. Freq. Rel. Abs (Fi) (fi) 2 11 13 10 11 7 1 1 56 2/56 11/56 13/56 10/56 11/56 7/56 1/56 1/56 1 (100%) Ponto Freq. Acum. Freq.Acum. Médio(Pmi) Direta (Fac) Inversa (Fac)’ 1,40 2 56 1,50 13 54 1,60 26 43 1,70 36 30 1,80 47 20 1,90 54 9 2,00 55 2 2,10 , 56 1 MEDIDAS DE TENDÊNCIA CENTRAL (1) MÉDIA ARITMÉTICA n (i ) Dados não agrupados x = ∑ xi i =1 n n (ii) Dados Agrupados x= ∑ xi Fi i =1 n n ((iii)) Dados Agrupados g p ppor Classes x= ∑ PM i Fi i =1 n (2) MEDIANA Divide Di id o conjunto j t de d dados d d em 2 subconjuntos com igual número de elementos (i) Para Dados não agrupados Ex: 5 7 8 10 14 Mediana = 8 Ex: 5 7 8 10 14 15 M di Mediana =9 Fórmula: Q d n é ímpar Quando í M di Mediana = (n+1)/2 ( +1)/2 Quando n é ppar Q Mediana = média{n/2;n/2 { ; +1}} (ii) Para dados Agrupados Observando-se a Faci procura-se: n/2 Média{n/2; n/2+1} n ímpar n par Exemplo 2 3 2 4 3 4 4 2 11 Número Freq. Abs. Freq. Acum. Dir. (Fac) (Fi) 2 2 1 3 5 2 2 7 3 3 10 4 n = 10 (par) n/2 = 5o elemento n/2 + 1 = 6o elemento MEDIANA = (2+3)/2 = 2,5 (iii) Para Tabela de Classes Primeiro e o Passo sso Calcula-se a ordem n/2 não se preocupando d se n é par ou ímpar A classe da mediana é aquela cuja S Segundo d P Passo freqüência acumulada direta até ela é MAIOR ou igual a n/2 e a imediatamente anterior t i MENOR que n/2. /2 Terceiro Passo Utiliza-se a fórmula Lmd : limite inferior da classe da mediana. n : tamanho da amostra ~ x = Lmdd ⎛n ⎜ −∑ 2 +⎝ Fmd ⎞ f⎟ ⎠ ×h ∑ f freqüência acumulada da classe imediatamente anterior à da mediana. h : Amplitude A i da classe da medina i Fmd- : freqüência absoluta da classe da mediana. (III) MODA É o valor mais freqüente da distribuição P i i Passo Primeiro P Identifica-se a classe modal (maior freqüência absoluta) Utiliza-se a fórmula Segundo Passo Mo = Lmo + (Fmo − Fmo−1 ) 2 × Fmo − Fmo −1 − Fmo +1 LMO: limite inferior da classe modal. FMO : freqüência absoluta da classe modal FMO-1: freqüência f üê i absoluta b l t da d classe l imediatamente i di t t anterior t i à classe l modal. d l FMO+1: freqüência absoluta da classe imediatamente posterior à classe modal. h : amplitude da classe modal. ×h (IV) QUARTIL (V) DECIL (VI) PERCENTIL Divide os dados em 4 partes iguais Divide os dados em 10 partes iguais Divide os dados em 100 ppartes iguais g MEDIDAS DE DISPERSÃO R = X max − X min AMPLITUDE TOTAL (Range) VARIÂNCIA Â n σ2 = ∑ i =1 n n ( xi − x )2 s2 = ∑ i =1 DESVIO PADRÃO ( xi − x )2 n −1 dp = ± s 2 COEFICIENTE DE VARIAÇÃO populacional amostrall s cv = x VARIÂNCIA PARA DADOS AGRUPADOS n s2 = ∑ i =1 ( xi − x )2 × Fi n −1 VARIÂNCIA PARA TABELA DE CLASSES n s =∑ 2 i =1 (PM i − x )2 × Fi n −1 RELAÇÃO GRÁFICA 22 20 18 Distribuição Normal 16 Frequ uência 14 12 10 8 6 - desvio padrão + desvio padrão 4 2 média 0