ESTATÍSTICA Etimologia: Palavra latina “status” = estado, situação, posição, atitude, ordem, repouso, condição, arrimo, haveres, riqueza. Sentido principal: estado político e/ou situação das coisas. Zanoto, A. - 2009 Cronologia 1589 - Primeira citação da palavra estatística, pelo historiador italiano Girolomo Ghilini 1602 - William Shakespeare, em Hamlet, ato 5, cena 2: “statists”. 1654 - Teoria das Probabilidades – Blaise Pascal e Pierre Fermat 1724 - Zimmermann e outros autores, na Alemanha: “statistik”. 1733 - Abraham De Moivre - Descoberta da distribuição normal. 1791 - Sir John Sinclair, editor e organizador do “Statistical Account of Scotland” - 21 vol. 1812 - Gauss e Laplace - Redescoberta da distribuição normal. 1829 - Primeiro livro de estatística médica: “Elements of Medical Statistics”, F.B.Hawkins. 1834 - Fundação da “Royal Statistical Society”. 1929 - Probabilidades - Axiomas - Andrei Nicolaievitch Kolmogorov 1937 - “Principles of Medical Statistics”, Sir Austin Bradford Hill. Zanoto, A. - 2009 Cronologia 1941 - Calculadora Automática (por programa) – Konrad Zuse 1944 - Computador “Mark I” – Howard Aiken (Harvard) 1946 - Computador “Eniac” – Eckert e Mauchley – (18.000 válvulas) 1942 - Estatística não paramétrica – Wolfowitz - (Início: 1710 – John Arbuthnot) 1960 - Início dos “Statistical packages” (Programas para grande e médio porte). 1970 - Calculadora eletrônica de mesa (Pré-Microcomputador) 1980 - Utilização dos Microcomputadores (PC ou CP) em nosso meio. 1990 - Aperfeiçoamento dos Programas estatísticos para Microcomputadores 1995 - Internet em nosso meio – (Início: Março-1989-CERN-Inglaterra) 2000 - Aperfeiçoamento de imagens, gravação, memória e comunicação Zanoto, A. - 2009 ESTATÍSTICA Classificação: Estatística teórica, geral e Estatística aplicada. Subdivisões: Científica, social, econômica, educacional, sanitária, hospitalar, agrícola, industrial, militar, geográfica, astronômica, demográfica, eleitoral; pesquisas de mercado, de opinião pública, de tráfego terrestre, aéreo e marítimo, de comunicações, de imagens de satélites, de seguros, de acidentes, etc.. “Estatística” pessoal intuitiva. Zanoto, A. - 2009 CONCEITOS A Estatística está relacionada à listagem dos fatos, aos métodos de ordenação e descrição dos dados e finalmente à ciência de inferir generalidades a partir de observações específicas. (Dixon, Massey - 1969) Estatística é o ramo da ciência que consta de um conjunto de processos que tem por objeto a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferências indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta inferência (finalidade indutiva). (Berquó, Souza, Gotlieb - 1980) Bioestatística é a Estatística aplicada às ciências da vida. Bioestatística é a ciência que trata com os planos e métodos de coleta, tabulação e análise de fatos numéricos nas ciências da vida. (Greenberg - 1965) Zanoto, A. - 2009 NÍVEIS DE MENSURAÇÃO – TIPOS DE VARIÁVEIS VARIÁVEIS são grandezas que podem variar para mais ou para menos, ou simplesmente sofrer variações. CONSTANTES são grandezas que não sofrem variações. MENSURAÇÃO é a comparação de uma grandeza variável e desconhecida com uma outra fixa, denominada unidade. De acordo com o nível de mensuração as variáveis podem ser classificadas em três tipos distintos: CATEGÓRICA QUALITATIVAS (NÃO-PARAMÉTRICO) VARIÁVEIS ORDINAL INTERVALAR QUANTITATIVA (PARAMÉTRICO) De modo geral, as variáveis qualitativas estão mais ligadas aos modelos não paramétricos enquanto que as variáveis quantitativas aos modelos paramétricos. Zanoto, A. - 2009 VARIÁVEL CATEGÓRICA – (Categórica, Nominal ou de Classe) Representa o nível mais simples e mais elementar de mensuração. Os indivíduos de uma população ou amostra são medidos mediante uma certa característica que pode ser categoria, nome ou classe. Citamos como exemplos: os diferentes nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino, macho ou fêmea; o estado civil, solteiro, casado, desquitado, viúvo; o curso, primário, secundário, colegial, universitário, pós-graduação, etc. Características binárias ou dicotomizadas: presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno ou maligno, etc. Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar em um único nome, categoria ou classe, e tambem são exaustivas, pois devem atingir todos os indivíduos da população ou amostra em estudo, sem exceção. A variável categórica é qualitativa e não se presta aos cálculos aritméticos comuns: soma, subtração, multiplicação e divisão. Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica (x=y então y=x); transitiva (x=y e y=z então x=z). Zanoto, A. - 2009 b) VARIÁVEL ORDINAL – Constitui o nível seguinte de mensuração. Os indivíduos de uma população ou amostra são classificados de acordo com as diversas categorias de uma determinada característica e em seguida são ordenados. Esta ordenação pode ser crescente ou decrescente, ou igualmente, ascendente ou descendente. Citamos os exemplos: no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no sexo, F,M ou M,F; no curso, primário- secundário-colegial ou colegial-secundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc. A variável ordinal tambem é qualitativa. Na escala ordinal utilizam-se as comparações maior do que (>) e menor do que (<). As operações aritméticas comuns (adição, subtração, multiplicação e divisão) não são aplicáveis. Sabe-se que um indivíduo ou coisa é maior ou menor do que outro porem não se sabe o quanto é maior nem o quanto é menor. São comuns as expressões comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso, menos intenso; mais alto, mais baixo; preferível; etc. A ordenação completa é aquela em que a relação maior do que (>) sempre pode ser aplicada entre as categorias de uma variável enquanto que a ordenação parcial ou incompleta é aquela em que ocorre empate entre algumas categorias da variável; assim, a relação maior do que (>) é acompanhada por uma ou mais relações de igualdade (=). Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e y>z então x>z). Zanoto, A. - 2009 c) VARIÁVEL INTERVALAR – Representa o nível mais elaborado e preciso da mensuração. A escala intervalar é verdadeiramente quantitativa. A mensuração é feita diretamente em números reais, obtidos mediante a comparação com um determinado valor fixo, denominado unidade. O nome intervalar está ligado aos intervalos entre as categorias da variável e aqui se sabe exatamente o quanto uma categoria é menor ou maior que outra, ou ainda se há igualdade entre elas. As operações aritméticas comuns (soma, subtração, multiplicação e divisão) são aplicáveis. Exemplos de variáveis intervalares: os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames laboratoriais, medidas diversas, etc. A variável intervalar reune todas as propriedades dos dois tipos anteriores de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>), transitiva (x>y e y>z então x>z). A escala de mensuração intervalar abrange ainda a denominada escala de razão que é a escala intervalar acrescida de um ponto zero como origem. Para fins práticos de cálculo, a escala de razão tem comportamento semelhante ao da escala intervalar. Zanoto, A. - 2009 MEDIDAS DE TENDÊNCIA CENTRAL Médias (aritmética, geométrica e harmônica) Mediana Moda Média aritmética - É a soma de todos os valores de uma variável dividida pela frequência total dessa variável. Ela é aplicada nas variáveis quantitativas (intervalar e de razão). Costumamos representar a média aritmética do universo ou população pela letra grega m e a média da amostra pela letra maiúscula X , com barra superior. A média aritmética representa o valor central de todos os valores da variável, e quando calculada admite um único valor possível. A soma algébrica de todos os desvios, entre os valores de uma variável e a sua média aritmética, é nula. Zanoto, A. - 2009 Média geométrica - É o antilogarítmo da média aritmética dos logarítmos de todos os valores da variável. É representada pelas letras maiúsculas G ou GM. G anti log log X N Os dados, ou valores da variável, são tranformados em logarítmos decimais; em seguida, é tirada a média aritmética desses logarítmos; a média geométrica é dada pelo antilogarítmo dessa média aritmética. A média geométrica é frequentemente utilizada em microbiologia e sorologia, na análise dos títulos, e o seu resultado é sempre inferior ao da média aritmética correspondente. Dados: 4, 8, 16, 16, 64 Média aritmética = 21,6 log dos dados: 0,60206; 0,90309; 1,20412; 1,20412; 1,80618 Média aritmética (log) = 1,143914 G = antilog (1,143914) = 13,93 Zanoto, A. - 2009 Média harmônica - É o inverso da média aritmética dos inversos dos valores da variável. É representada pela letra maiúscula H . H 1 1 X N Os dados, ou valores da variável, são transformados em inversos; em seguida, é tirada a média aritmética desses inversos; a média harmônica é dada pelo inverso dessa média aritmética. Dados: 4, 8, 16, 16, 64 Média aritmética = 21,6 Inversos: 0,25; 0,125; 0,0625; 0,0625; 0,015625 Média aritmética ( 1/x ) = 0,103125 H = 1/(0,103125) = 9,7 Zanoto, A. - 2009 Mediana - É o valor da variável que ocupa o posto de posição central, quando todos os valores estão ordenados em ordem crescente ou decrescente. A mediana pode ser representada pelas letras Md . Na prática, duas situações distintas se apresentam, conforme o número de valores N , ou frequência total, seja par ou impar. Se for impar, a mediana ( Md ) será o valor que ocupa a posição central na escala ordenada dos valores da variável . Esta posição ou posto pode ser calculada por (N+1)/2. Por outro lado, se N for par, a mediana será calculada pela média aritmética dos dois valores centrais na escala ordenada da variável. A posição ou posto de cada um desses dois valores centrais pode ser calculada por N/2 e (N+2)/2. A mediana será então: Md= [(valor do posto N/2)+(valor do posto (N+2)/2] /2. A mediana é muito utilizada nos cálculos não paramétricos. Zanoto, A. - 2009 Moda - É o valor da variável que corresponde à frequência máxima. É representado pelas letras Mo . A moda pode ter um ou mais valores, unimodal, bimodal,..., multimodal, conforme existam uma, duas, ou mais frequências iguais, dos valores da variável. Dados: 22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99 (N=13) Média aritmética: X = 53,9 Mediana: Md = 46 Moda: Mo = 83 Zanoto, A. - 2009 MEDIDAS DE VARIABILIDADE OU DE DISPERSÃO Variância Desvio Padrão Erro Padrão Variância da população ( 2 ) - É a soma dos quadrados dos desvios entre os valores e a média aritmética da variável, dividida pela frequência total. 2 ( X m) 2 N Variância da amostra ( s2 ) - É a soma dos quadrados dos desvios entre os valores e a média aritmética da variável, dividida pela frequência total menos um. 2 s (X X) 2 N 1 Zanoto, A. - 2009 Desvio padrão da população ( ) - É a raiz quadrada da variância da população ( 2 ). ( X m) 2 N Desvio padrão da amostra ( s ) – É a raiz quadrada da variância da amostra ( s2 ). s (X X) 2 N 1 Os desvios padrão podem ser representados, eventualmente, pelas letras maiúsculas DP . A variância e o desvio padrão são sempre números positivos. Zanoto, A. - 2009 VARIÂNCIA DA POPULAÇÃO 2 ( X m) VARIÂNCIA DA AMOSTRA 2 2 s N 1 N DESVIO PADRÃO DA POPULAÇÃO ( X m) N (X X ) 2 DESVIO PADRÃO DA AMOSTRA 2 s ( X X ) 2 N 1 Zanoto, A. - 2009 Erro padrão da média ( EP ) ou ( sem – “standard error mean” ) - É o desvio padrão ( DP ) dividido pela raiz quadrada da frequência total ( N ). DP EP N Coeficiente de Variação ( CV ) – É o desvio padrão dividido pela média aritmética, expresso em porcentual. CV = ( DP / Média aritmética ) * 100% ou CV = ( s / X ) * 100% Amplitude de variação – É a diferença entre os dois valores extremos da variável, isto é, a diferença entre o valor máximo e o valor mínimo da variável. av = ( max – min ) Frequência – É o número de vezes que uma determinada categoria de uma variável ocorre. Frequência total – É a soma das frequências de todas as categorias da variável. Zanoto, A. - 2009 Exemplo - Dados ou valores da variável, ordenados, em ordem crescente ou ascendente: 22 25 28 32 35 43 46 51 55 83 83 98 99 Estatística descritiva: Soma................................... = 700,00 Frequência total.................. N = 13 Média aritmética.................. X = 53,85 Variância............................. s2 = 768,64 Desvio padrão..................... s = 27,72 Erro padrão....................... sem = 7,69 Mínimo................................ min = 22 Máximo.............................. max = 99 Amplitude de variação......... av = 77 Média geométrica................ G = 47,58 Média harmônica................. H = 42,18 Mediana.............................. Md = 46 Moda................................... Mo = 83 Frequência da moda........... fMo = 2 Coeficiente de Variação .. CV = 51,5% Zanoto, A. - 2009 Zanoto, A. - 2009 NUM. DADOS DADOS DADOS DADOS ORDEM VAR A VAR B VAR C VAR D 1 3 3 4 8 2 4 4 0 0 3 3 2 7 0 4 2 4 3 7 5 4 5 1 0 6 3 3 6 6 7 5 4 0 0 8 4 2 5 6 9 3 3 2 8 10 4 5 7 0 35 35 35 35 X 3,5 3,5 3,5 3,5 s 0,85 1,08 2,72 3,75 CV 24,30% 30,90% 77,70% 107,10% Zanoto, A. - 2009 ORDEM VAR 1 VAR 2 VAR 3 VAR 4 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 5 6 7 4 5 8 6 4 7 8 Zanoto, A. - 2009 SOMA 60 120 180 240 N 10 20 30 40 MÉDIA 6 6 6 6 D.P. 1,4907 1,4510 1,4384 1,4322 C.V. 24,85% 24,18% 23,97% 23,87% Zanoto, A. - 2009