ESTATÍSTICA
Etimologia:
Palavra latina “status” = estado, situação, posição, atitude,
ordem, repouso, condição, arrimo, haveres, riqueza.
Sentido principal: estado político e/ou situação das
coisas.
Zanoto, A. - 2009
Cronologia
1589 - Primeira citação da palavra estatística, pelo historiador italiano Girolomo Ghilini
1602 - William Shakespeare, em Hamlet, ato 5, cena 2: “statists”.
1654 - Teoria das Probabilidades – Blaise Pascal e Pierre Fermat
1724 - Zimmermann e outros autores, na Alemanha: “statistik”.
1733 - Abraham De Moivre - Descoberta da distribuição normal.
1791 - Sir John Sinclair, editor e organizador do “Statistical Account of Scotland” - 21 vol.
1812 - Gauss e Laplace - Redescoberta da distribuição normal.
1829 - Primeiro livro de estatística médica: “Elements of Medical Statistics”, F.B.Hawkins.
1834 - Fundação da “Royal Statistical Society”.
1929 - Probabilidades - Axiomas - Andrei Nicolaievitch Kolmogorov
1937 - “Principles of Medical Statistics”, Sir Austin Bradford Hill.
Zanoto, A. - 2009
Cronologia
1941 - Calculadora Automática (por programa) – Konrad Zuse
1944 - Computador “Mark I” – Howard Aiken (Harvard)
1946 - Computador “Eniac” – Eckert e Mauchley – (18.000 válvulas)
1942 - Estatística não paramétrica – Wolfowitz - (Início: 1710 – John Arbuthnot)
1960 - Início dos “Statistical packages” (Programas para grande e médio porte).
1970 - Calculadora eletrônica de mesa (Pré-Microcomputador)
1980 - Utilização dos Microcomputadores (PC ou CP) em nosso meio.
1990 - Aperfeiçoamento dos Programas estatísticos para Microcomputadores
1995 - Internet em nosso meio – (Início: Março-1989-CERN-Inglaterra)
2000 - Aperfeiçoamento de imagens, gravação, memória e comunicação
Zanoto, A. - 2009
ESTATÍSTICA
Classificação:
Estatística teórica, geral e Estatística aplicada.
Subdivisões:
Científica, social, econômica, educacional, sanitária, hospitalar,
agrícola, industrial, militar, geográfica, astronômica, demográfica,
eleitoral; pesquisas de mercado, de opinião pública, de tráfego
terrestre, aéreo e marítimo, de comunicações, de imagens de
satélites, de seguros, de acidentes, etc..
“Estatística” pessoal intuitiva.
Zanoto, A. - 2009
CONCEITOS
A Estatística está relacionada à listagem dos fatos, aos métodos de
ordenação e descrição dos dados e finalmente à ciência de inferir
generalidades a partir de observações específicas.
(Dixon, Massey - 1969)
Estatística é o ramo da ciência que consta de um conjunto de processos que
tem por objeto a observação, a classificação formal e a análise dos fenômenos
coletivos ou de massa (finalidade descritiva) e, por fim, investigar a
possibilidade de fazer inferências indutivas válidas a partir dos dados
observados e buscar métodos capazes de permitir esta inferência (finalidade
indutiva).
(Berquó, Souza, Gotlieb - 1980)
Bioestatística é a Estatística aplicada às ciências da vida.
Bioestatística é a ciência que trata com os planos e métodos de coleta,
tabulação e análise de fatos numéricos nas ciências da vida.
(Greenberg - 1965)
Zanoto, A. - 2009
NÍVEIS DE MENSURAÇÃO – TIPOS DE VARIÁVEIS
VARIÁVEIS são grandezas que podem variar para mais ou para menos, ou
simplesmente sofrer variações.
CONSTANTES são grandezas que não sofrem variações.
MENSURAÇÃO é a comparação de uma grandeza variável e desconhecida com uma
outra fixa, denominada unidade.
De acordo com o nível de mensuração as variáveis podem ser classificadas em três
tipos distintos:
CATEGÓRICA
QUALITATIVAS (NÃO-PARAMÉTRICO)
VARIÁVEIS
ORDINAL
INTERVALAR
QUANTITATIVA
(PARAMÉTRICO)
De modo geral, as variáveis qualitativas estão mais ligadas aos modelos
não paramétricos enquanto que as variáveis quantitativas aos modelos
paramétricos.
Zanoto, A. - 2009
VARIÁVEL CATEGÓRICA – (Categórica, Nominal ou de Classe)
Representa o nível mais simples e mais elementar de mensuração. Os indivíduos
de uma população ou amostra são medidos mediante uma certa característica
que pode ser categoria, nome ou classe.
Citamos como exemplos: os diferentes nomes das pessoas ou coisas; as letras
do alfabeto; o sexo, masculino ou feminino, macho ou fêmea; o estado civil,
solteiro, casado, desquitado, viúvo; o curso, primário, secundário, colegial,
universitário, pós-graduação, etc.
Características binárias ou dicotomizadas: presente ou ausente, 1 ou 0,
positivo ou negativo, vivo ou morto, sim ou não, benigno ou maligno, etc.
Essas características são mutuamente exclusivas, isto é, cada indivíduo só
pode se enquadrar em um único nome, categoria ou classe, e tambem são
exaustivas, pois devem atingir todos os indivíduos da população ou amostra em
estudo, sem exceção.
A variável categórica é qualitativa e não se presta aos cálculos aritméticos
comuns: soma, subtração, multiplicação e divisão. Apresenta as seguintes
propriedades de equivalência (=): reflexiva (x=x); simétrica (x=y então y=x);
transitiva (x=y e y=z então x=z).
Zanoto, A. - 2009
b) VARIÁVEL ORDINAL – Constitui o nível seguinte de mensuração. Os indivíduos de uma
população ou amostra são classificados de acordo com as diversas categorias de uma
determinada característica e em seguida são ordenados.
Esta ordenação pode ser crescente ou decrescente, ou igualmente, ascendente ou
descendente. Citamos os exemplos: no alfabeto, A,B,C,D ou D,C,B,A; em números de
ordem, 1,2,3 ou 3,2,1; no sexo, F,M ou M,F; no curso, primário- secundário-colegial ou
colegial-secundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados
numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.
A variável ordinal tambem é qualitativa. Na escala ordinal utilizam-se as comparações maior
do que (>) e menor do que (<). As operações aritméticas comuns (adição, subtração,
multiplicação e divisão) não são aplicáveis. Sabe-se que um indivíduo ou coisa é maior ou
menor do que outro porem não se sabe o quanto é maior nem o quanto é menor. São
comuns as expressões comparativas: maior, menor; superior, inferior; primeiro, último; mais
intenso, menos intenso; mais alto, mais baixo; preferível; etc.
A ordenação completa é aquela em que a relação maior do que (>) sempre pode
ser aplicada entre as categorias de uma variável enquanto que a ordenação parcial ou
incompleta é aquela em que ocorre empate entre algumas categorias da variável; assim, a
relação maior do que (>) é acompanhada por uma ou mais relações de igualdade (=).
Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e y>z
então x>z).
Zanoto, A. - 2009
c) VARIÁVEL INTERVALAR – Representa o nível mais elaborado e preciso da
mensuração. A escala intervalar é verdadeiramente quantitativa. A
mensuração é feita diretamente em números reais, obtidos mediante a
comparação com um determinado valor fixo, denominado unidade. O nome
intervalar está ligado aos intervalos entre as categorias da variável e aqui se
sabe exatamente o quanto uma categoria é menor ou maior que outra, ou
ainda se há igualdade entre elas. As operações aritméticas comuns (soma,
subtração, multiplicação e divisão) são aplicáveis. Exemplos de variáveis
intervalares: os valores de idade, altura, peso, pressão arterial, frequência
cardíaca, exames laboratoriais, medidas diversas, etc.
A variável intervalar reune todas as propriedades dos dois tipos anteriores de
mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y então y=x)
e transitiva (x=y e y=z então x=z) e a de ordenação (>), transitiva (x>y e y>z
então x>z).
A escala de mensuração intervalar abrange ainda a denominada escala de
razão que é a escala intervalar acrescida de um ponto zero como origem.
Para fins práticos de cálculo, a escala de razão tem comportamento
semelhante ao da escala intervalar.
Zanoto, A. - 2009
MEDIDAS DE TENDÊNCIA CENTRAL
Médias (aritmética, geométrica e harmônica)
Mediana
Moda
Média aritmética - É a soma de todos os valores de uma variável dividida pela
frequência total dessa variável.
Ela é aplicada nas variáveis quantitativas (intervalar e de razão).
Costumamos representar a média aritmética do universo ou população pela letra
grega m e a média da amostra pela letra maiúscula X , com barra superior.
A média aritmética representa o valor central de todos os valores da variável, e
quando calculada admite um único valor possível.
A soma algébrica de todos os desvios, entre os valores de uma variável e a sua
média aritmética, é nula.
Zanoto, A. - 2009
Média geométrica - É o antilogarítmo da média aritmética dos logarítmos de
todos os valores da variável.
É representada pelas letras maiúsculas G ou GM.
G  anti log
 log X
N
Os dados, ou valores da variável, são tranformados em logarítmos decimais;
em seguida, é tirada a média aritmética desses logarítmos; a média
geométrica é dada pelo antilogarítmo dessa média aritmética.
A média geométrica é frequentemente utilizada em microbiologia e sorologia,
na análise dos títulos, e o seu resultado é sempre inferior ao da média
aritmética correspondente.
Dados: 4, 8, 16, 16, 64 Média aritmética = 21,6
log dos dados: 0,60206; 0,90309; 1,20412; 1,20412; 1,80618
Média aritmética (log) = 1,143914 G = antilog (1,143914) = 13,93
Zanoto, A. - 2009
Média harmônica - É o inverso da média aritmética dos inversos dos
valores da variável.
É representada pela letra maiúscula H .
H
1
 1
 
X
N
Os dados, ou valores da variável, são transformados em inversos; em
seguida, é tirada a média aritmética desses inversos; a média harmônica é
dada pelo inverso dessa média aritmética.
Dados: 4, 8, 16, 16, 64
Média aritmética = 21,6
Inversos: 0,25; 0,125; 0,0625; 0,0625; 0,015625
Média aritmética ( 1/x ) = 0,103125 H = 1/(0,103125) = 9,7
Zanoto, A. - 2009
Mediana - É o valor da variável que ocupa o posto de posição central,
quando todos os valores estão ordenados em ordem crescente ou
decrescente.
A mediana pode ser representada pelas letras Md .
Na prática, duas situações distintas se apresentam, conforme o número de
valores N , ou frequência total, seja par ou impar.
Se for impar, a mediana ( Md ) será o valor que ocupa a posição central na
escala ordenada dos valores da variável . Esta posição ou posto pode ser
calculada por (N+1)/2.
Por outro lado, se N for par, a mediana será calculada pela média aritmética
dos dois valores centrais na escala ordenada da variável. A posição ou posto
de cada um desses dois valores centrais pode ser calculada por N/2 e
(N+2)/2. A mediana será então: Md= [(valor do posto N/2)+(valor do posto
(N+2)/2] /2.
A mediana é muito utilizada nos cálculos não paramétricos.
Zanoto, A. - 2009
Moda - É o valor da variável que corresponde à frequência máxima. É
representado pelas letras Mo .
A moda pode ter um ou mais valores, unimodal, bimodal,..., multimodal,
conforme existam uma, duas, ou mais frequências iguais, dos valores da
variável.
Dados: 22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99 (N=13)
Média aritmética: X = 53,9
Mediana: Md = 46
Moda: Mo = 83
Zanoto, A. - 2009
MEDIDAS DE VARIABILIDADE OU DE DISPERSÃO
Variância
Desvio Padrão
Erro Padrão
Variância da população ( 2 ) - É a soma dos quadrados dos desvios entre os
valores e a média aritmética da variável, dividida pela frequência total.

2

 ( X  m)
2
N
Variância da amostra ( s2 ) - É a soma dos quadrados dos desvios entre os
valores e a média aritmética da variável, dividida pela frequência total menos um.
2
s 
(X  X)
2
N 1
Zanoto, A. - 2009
Desvio padrão da população (  ) - É a raiz quadrada da variância da população
( 2 ).

 ( X  m)
2
N
Desvio padrão da amostra ( s ) – É a raiz quadrada da variância da amostra ( s2 ).
s
(X  X)
2
N 1
Os desvios padrão podem ser representados, eventualmente, pelas letras
maiúsculas DP .
A variância e o desvio padrão são sempre números positivos.
Zanoto, A. - 2009
VARIÂNCIA DA POPULAÇÃO
2
 
 ( X  m)
VARIÂNCIA DA AMOSTRA
2
2
s 
N 1
N
DESVIO PADRÃO DA POPULAÇÃO

 ( X  m)
N
(X  X )
2
DESVIO PADRÃO DA AMOSTRA
2
s
( X  X )
2
N 1
Zanoto, A. - 2009
Erro padrão da média ( EP ) ou ( sem – “standard error mean” ) - É o desvio padrão
( DP ) dividido pela raiz quadrada da frequência total ( N ).
DP
EP 
N
Coeficiente de Variação ( CV ) – É o desvio padrão dividido pela média aritmética,
expresso em porcentual.
CV = ( DP / Média aritmética ) * 100%
ou
CV = ( s / X ) * 100%
Amplitude de variação – É a diferença entre os dois valores extremos da variável,
isto é, a diferença entre o valor máximo e o valor mínimo da variável.
av = ( max – min )
Frequência – É o número de vezes que uma determinada categoria de uma variável
ocorre.
Frequência total – É a soma das frequências de todas as categorias da variável.
Zanoto, A. - 2009
Exemplo - Dados ou valores da variável, ordenados, em ordem crescente
ou ascendente:
22 25 28 32 35 43 46 51 55 83 83 98 99
Estatística descritiva:
Soma...................................  = 700,00
Frequência total.................. N = 13
Média aritmética.................. X = 53,85
Variância............................. s2 = 768,64
Desvio padrão..................... s = 27,72
Erro padrão....................... sem = 7,69
Mínimo................................ min = 22
Máximo.............................. max = 99
Amplitude de variação......... av = 77
Média geométrica................ G = 47,58
Média harmônica................. H = 42,18
Mediana.............................. Md = 46
Moda................................... Mo = 83
Frequência da moda........... fMo = 2
Coeficiente de Variação .. CV = 51,5%
Zanoto, A. - 2009
Zanoto, A. - 2009
NUM.
DADOS
DADOS
DADOS
DADOS
ORDEM
VAR A
VAR B
VAR C
VAR D
1
3
3
4
8
2
4
4
0
0
3
3
2
7
0
4
2
4
3
7
5
4
5
1
0
6
3
3
6
6
7
5
4
0
0
8
4
2
5
6
9
3
3
2
8
10
4
5
7
0

35
35
35
35
X
3,5
3,5
3,5
3,5
s
0,85
1,08
2,72
3,75
CV
24,30%
30,90%
77,70%
107,10%
Zanoto, A. - 2009
ORDEM
VAR 1
VAR 2
VAR 3
VAR 4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
5
6
7
4
5
8
6
4
7
8
Zanoto, A. - 2009
SOMA
60
120
180
240
N
10
20
30
40
MÉDIA
6
6
6
6
D.P.
1,4907
1,4510
1,4384
1,4322
C.V.
24,85%
24,18%
23,97%
23,87%
Zanoto, A. - 2009
Download

Aula1 - Pós Graduação em Ciências da Saúde