[email protected]
Introdução à Estatística
e
Estatística Descritiva
[email protected]
ESTATÍSTICA?
Um conjunto de procedimentos e princípios para
recolha, compilação, análise e interpretação de
dados por forma a ajudar na tomada de decisões
quando na presença de incerteza.
0
1
[email protected]
[email protected]
Herbert George Wells,
English author, said (circa 1940 ),
“Statistical thinking will one day be as
necessary for efficient citizenship as the ability
to read and write”
Average
depth 3ft
(0 9144 )
(0.9144m)
2
3
[email protected]
[email protected]
Ex 1 - Coin Tossing
Why do we need to understand statistics?
• Imagine tossing a coin successively, and waiting till the first
time a particular pattern appears, say HTT
Reasoning with Uncertainty
• For example, if the sequence of tosses was
HHTHHTHHTTHHTTTHTH
• from
• Peter Donnelly: How juries are fooled by statistics
• The
Th pattern
tt
HTT would
ld fifirstt appear after
ft the
th 10th toss
t
• http://www.ted.com/index.php/talks/view/id/67
4
Ex 1 - Coin Tossing
[email protected]
5
Ex 1 - Coin Tossing
•
• Imagine
g
that half of yyou toss a coin several times,,
each time till the sequence HTT occurs.
[email protected]
Which off the following
f
is true:
A. The average number of tosses until HTH is larger than
the average number of tosses until HTT
B. The average number of tosses until HTH is the same as
the average number of tosses until HTT
– Record the average number of tosses till HTT occurs
C. The average number of tosses until HTH is smaller than
the average number of tosses until HTT
• The other half of you prefer to count HTH
Most people think that B is true but A is true
true. The average
number of tosses till HTH is 10 and the average number of
tosses till HTT is 8.
– Record the average number of tosses till HTH occurs
6
7
Ex 1 - Coin Tossing
[email protected]
• Intuitive explanation:
• Imagine that you win if HTH occurs
[email protected]
Ex 1 - Coin Tossing
It was an example
l off a
– If the first toss gives a H you are exited and you get even
you win
more exited if the second is a T. If the third is H y
but if it is a T you have to start again and wait for the next
H.
simple question on
probabilities that most
• If yyou win when HTT occurs
people get wrong.
– For the first two tosses the experience is the same.
However, if the third toss is a H you loose but you already
have the first H and are 1/3 of the way to your pattern.
8
9
[email protected]
[email protected]
Conclusions from the examples
• Randomness, uncertainty and chance are part
of our life.
• People make errors of logic when reasoning
with uncertainty
uncertainty.
• Errors in statistics may have serious
consequences.
What is the problem here?
On average
g the
temperature is
very nice
nice...
It is very important to understand
statistics!
10
11
[email protected]
[email protected]
Estatística Descritiva
Na estatística descritiva procura-se sintetizar e
representar
t de
d forma
f
compreensível
í l a informação
i f
ã
contida num conjunto de dados (através da
construção
t ã de
d tabelas,
t b l
d gráficos
de
áfi
ou do
d cálculo
ál l d
de
medidas)
Objectivo da estatística descritiva: síntese da informação
contida em dados
12
13
[email protected]
[email protected]
Exemplo:
e p o notas
otas a u
uma
a dete
determinada
ada d
disciplina
sc p a
Média
Mediana
Amplitude
Máximo
Mínimo
Quartil 25%
Quartil 75%
Desvio Padrão
Variância
Assimetria
14
10.52
10 51
10.51
16.29
17 67
17.67
1.38
9.068
12.68
3.208
10 291
10.291
-0.25
15
[email protected]
[email protected]
Média e Mediana
Exemplo
x
10
Média e Mediana
Exemplo
Média:
x = (10 + 12 + 14 + 11 + 7 + 14 + 10 + 2 ) / 8 = 11.25
x
10
12
14
11
7
12
10
Mediana:
7
11
10
11
14
12
12
14
10
10
10
11
12
12
14
200
11 5
11.5
7
14
200
11.5
12
10
Média mais sensível a valores extremos!
12
ex. Salário médio vs. Salário mediano
16
17
[email protected]
[email protected]
Variância e Desvio Padrão
Exemplo: Calcular o desvio padrão da seguinte amostra: - 4 , -3 , -2 , 3 , 5
Para inferir da variabilidade de uma população a partir de uma amostra
usa-se a variância amostral (s2)
s2 =
x = (10 + 12 + 14 + 11 + 7 + 200 + 10 + 2 ) / 8 = 34.5
14
Mediana:
7
Média:
N
1
2
⋅  ( xn − x )
N − 1 n =1
O desvio
d
i padrão
d ã amostral
t l (s),
( ) raiz
i
quadrada da variância amostral, tem a
vantagem de ser expresso nas
mesmas unidades dos dados
Xi
X
Xi − X
(Xi − X )
-4
-0,2
-3,8
14,44
-3
-2,8
7,84
-2
-1,8
3,24
3
3,2
10,24
5
,
5,2
27,04
,
Soma=
62.8
2
Sabemos que n = 5 e 62,8 / (5-1) = 15,7
s=
N
1
2
⋅  ( xn − x )
N − 1 n =1
A raiz quadrada de 15
15,7
7 é o desvio padrão = 3,96
3 96
18
19
[email protected]
[email protected]
Histograma das classificações
Coeficiente de assimetria (g1)
g1 =
k3
s3
, COM
k3 =
N2
1 N

⋅  ⋅  ( xn − x ) 3 
(N − 1) ⋅ (N − 2)  N n =1

g1 = 0
g1 > 0
http://www.stat.tamu.edu/~west/javahtml/Histogram.html
g1 < 0
20
21
[email protected]
[email protected]
Box-Plot: permite comparar as classificações de 3 anos de Mest
70.0
Box Plot of Home Runs per Season for
4 Great Players When They Were NY Yankees
60.0
50.0
Home
e Runs
percentil
75%
40.0
30.0
20.0
10.0
70.0
00
0.0
60.0
-10.0
mediana
Ruth_Y Mantle_Y Gehrig_Y Maris_Y
PLAYERS
50.0
Home Runs
H
percentil
25%
Box Plot of Home Runs per Season for
4 Great Players for Their Entire Careers
40.0
30.0
20.0
10.0
0.0
-10.0
Ruth
22
Gehrig Mantle
PLAYERS
Maris
23
[email protected]
[email protected]
• Amostras bivariadas – dados quantitativos
q
A relação entre duas variáveis pode ser ilustrada através de um
diagrama(x,y) - scatterplot
A relação existente entre os dois atributos de uma amostra bivariada
com dados quantitativos pode ser evidenciada por um diagrama (X
(X,Y)
Y)
ou, de forma mais sintética, pelo cálculo do grau de ajuste de
determinada relação
6000
VOLUME DE
CUSTO DE
PRODUÇÃO
PRODUÇÃO
(unidades)
(contos)
1
1500
3100
2
800
1900
3
2600
4200
4
1000
2300
5
600
1200
6
2800
4900
7
1200
2800
8
900
2100
9
400
1400
10
1300
2400
11
1200
2400
12
2000
3800
Custo de produção
LOTE
5000
4000
3000
2000
1000
0
0
500
1000
1500
2000
2500
3000
Volume de produção
24
25
[email protected]
[email protected]
matriz de scatter plots
p
Um scatterplot permite analisar o relacionamento geral e a existência
de desvios entre duas variáveis.
Por vezes interessa caracterizar a relação entre duas variáveis e medir
o respectivo grau de ajuste.
Vamos ver o exemplo a relação linear
linear.
26
27
[email protected]
[email protected]
Medidas do grau de ajustamento da relação linear aos dados:
x
Covariância amostral (permite inferir acerca da população)
c XY =
y
1500
800
2600
1000
600
2800
1200
900
400
1300
1200
2000
N
1
⋅  ( xn − x ) ⋅ ( y n − y )
N − 1 n =1
correl:
cov:
0.9811009
757847.22
3100
1900
4200
2300
1200
4900
2800
2100
1400
2400
2400
3800
1000x
1500000
800000
2600000
1000000
600000
2800000
1200000
900000
400000
1300000
1200000
2000000
1000y
3100000
1900000
4200000
2300000
1200000
4900000
2800000
2100000
1400000
2400000
2400000
3800000
y
6000
5000
4000
3000
1000
0
0
0.9811009
7.578E+11
Coeficiente de correlação amostral (medida adimensional)
y
2000
500
1000
1500
2000
2500
3000
1000y
6000000
5000000
rXY =
N
1
⋅  ( xn − x ) ⋅ ( y n − y )
N − 1 n =1
N
N
1
1
2
2
⋅  ( xn − x ) ⋅
⋅  ( yn − y )
N − 1 n =1
N − 1 n =1
4000000
=
c XY
s X ⋅ sY
(− 1 ≤ rXY
≤ 1)
3000000
Para uma determinada relação a mudança de
escala altera o valor da covariância.
1000y
2000000
1000000
0
0
500000 1000000 1500000 2000000 2500000 3000000
28
29
[email protected]
[email protected]
http://bcs.whfreeman.com/ips4e/cat_010/applets/CorrelationRegression.html
30
31
[email protected]
[email protected]
The Lie Factor is simply the ratio of the difference in the proportion of the graphic elements versus the
difference in the quantities they represent. The most informative graphics are those with a Lie Factor of 1.
Here is an example of a badly scaled graphic, with a lie factor of 14.8:
Expresso – 18 Jan. 2003
9657
= 2.8
3449
(from Tufte, E.R. (1983). The Visual Display of Quantitative Information. Cheshire, CT: Graphics Press)
Classical example of how to lie with statistics.
32
33
[email protected]
[email protected]
An example of a graph where two-dimensional figures are
used to represent
p
one-dimensional values. What often
happens is that the size of the graphic is scaled both
horizontally and vertically according to the value being
graphed. However, this results in the area of the graphic
varying
y g with the square
q
of the underlying
y g data,, causing
g
the eye to read an exaggerated effect in the graph. This
graph has a lie factor of about 2.8, based on the variation
between the area of each doctor graphic and the number
it represents.
p
(from Tufte, E.R. (1983). The Visual Display of Quantitative Information. Cheshire, CT: Graphics Press)
34
35
[email protected]
[email protected]
One more point about graphs: be sure to include enough context to make the graph meaningful. For
instance, one may be tempted to draw unwarranted conclusions based on this graph:
População
p ç e Amostra
Designa-se
g
por p
p
população
p ç ((ou universo)) o conjunto
j
dos
dados que expressam a característica em causa para todos os
objectos sobre os quais a análise incide.
Uma amostra corresponde a um subconjunto de
d d que pertencem
dados
t
à população.
l ã
(f
(from
T
Tufte,
ft E
E.R.
R (1983)
(1983). The
Th Vi
Visuall Di
Display
l off Q
Quantitative
tit ti IInformation.
f
ti
Ch hi CT
Cheshire,
CT: G
Graphics
hi P
Press))
36
37
[email protected]
[email protected]
Selecção de amostras
Exemplo
Objectos:
contas à ordem de todos os profissionais
liberais clientes de um banco
Característica: saldo registado
g
num dado momento
Quando todos os elementos da população têm igual
probabilidade de ser incluídos na amostra evita-se qualquer
enviesamento de selecção
selecção, designando
designando-se
se então o processo por
População:
conjunto dos saldos das contas à ordem de
t d os profissionais
todos
fi i
i liberais
lib i clientes
li t d
do
banco num dado momento
amostragem aleatória
Amostra:
conjunto de 100 saldos seleccionados
38
39
[email protected]
[email protected]
Why the Digest went wrong:
The 1936 election: the literary digest poll
• Bias in selection of sample
– 10,000,000 questionnaires sent out to
• Magazine subscribers
subscribers, car owners,telephone
owners telephone owners
• Candidates
Candidates: Democrat FD Roosevelt and Republican
Alfred Landon
• Prediction: Landon to win with 57% of the vote
• Bi
Bias ffrom non-response
– 20% bothered to reply
– Presumably,
P
bl th
those with
ith strong
t
views
i
about
b t th
the
forthcoming election
• Outcome: Landon lost with only 38% of the vote
• Sample Size: 2.3
2 3 million people!
• Literary Digest went bankrupt soon after
Large sample size cannot compensate
for poor sample design!!!
40
41
[email protected]
[email protected]
Análise dos dados
Recorre-se às técnicas de estatística descritiva para
sintetizar a informação contida nos dados
Na inferência estatística,
estatística com base na análise de um
conjunto limitado de dados (amostra), pretende-se
caracterizar o todo a p
partir do q
qual tais dados foram
obtidos (população)
Estabelecimento de inferências acerca da população
Com base na informação contida na amostra
amostra, pretendem
retirar-se conclusões relativas à população e associar-lhes
um grau de credibilidade
E
Exemplo
l
A partir dos 100 saldos disponíveis,
disponíveis retirar conclusões
sobre a forma como se comportam os saldos das contas
profissionais liberais clientes do
à ordem de todos os p
banco
42
43
[email protected]
Eleições legislativas 2002
[email protected]
Teste de Hipótese
p
à Diferença
ç de Duas Proporções
p ç
Binomias
.
(amostras de grande dimensão - N > 20 e N p> 7)
DN e TSF ->
> Marktest
EXPRESSO-SIC-Renascença -> Eurosondagem
A hipóteses
As
hi ó
a considerar
id
num teste relativo
l i à dif
diferença d
de d
duas proporções
õ
binomiais são:
2057 entrevistas
validadas e
apresenta um erro
de amostra de 2,16
por cento para um
grau de
probabilidade de 95
por cento.
819 entrevistas e apresenta um erro
de amostragem para um intervalo de
confiança de 95 por cento, de mais
ou menos 3,42 por cento.
H 0:
pA − pB = p0
H1 :
pA − pB = p0 ≠ p0 ,
Resultados Finais
JN -> Intercampus
ou
pA − pB = p0 < p0
Sendo a estatística do teste dada por
Independente -> Instituto de Pesquisa de Opinião e Mercado (IPOM)
997 entrevistas validadas e apresenta um
erro de amostragem, para um nível de
confiança de 95,5 por cento, de mais ou
menos 3,1
3 1 pontos
t percentuais.
t i
pA − pB = p0 B > p0
PS: 46% (118-124 deputados)
PSD: 31% (80-84)
CDU: 7% (8-12)
(8 12)
BE: 7% (8-12)
CDS-PP: 6% (6-10)
Outros: 1% (0)
Brancos/nulos: 2%
ET =
(YA
N A − YB NB ) − p0
YA ⋅ (N A − YA ) N A3 + YB ⋅ (NB − YB ) NB3
→ N (0 ,1)
5051 inquiridos, de
1,4 por cento com
um nível de
confiança de 95
por cento.
PÚBLICO, RTP e Antena 1 -> Universidade Católica
1015 entrevistas, e apresenta um erro de amostragem, para um
intervalo de confiança de 95 por cento, de mais ou menos 3,1 por
cento.
44
45
[email protected]
[email protected]
Exemplo
Na avaliação de um problema de classificação foram utilizados dois algoritmos
algoritmos. O
algoritmo A classificou correctamente 27 de 45 exemplos enquanto o algoritmo
B classificou correctamente 32 de 65 exemplos.
A h que se pode
Acha
d afirmar
fi
que o algoritmo
l it
A é significativamente
i ifi ti
t mais
i preciso
i d
do
que o algoritmo B?
pa =
ET =
27
= 0.60
45
e
pb =
Introdução à Estatística
e
Estatística Descritiva
32
= 0.49
65
27 32
−
45 65
= 1.12
27(45 − 27) 32(65 − 32)
+
453
653
1.12 < 1.645 logo, a diferença não é estatisticamente significativa
46
47
Basic Statistics
[email protected]
[email protected]
Summary Statistics
h //
http://www.liaad.up.pt/~ltorgo/Regression/DataSets.html
li d
/ l
/
i /
S h l
(Excel)
48
49
[email protected]
Histograms
g
Box Plots
(SPSS)
(SPSS)
50
Download

nice nice