Monitoramento e Controle
Ambiental
Programa de Pós-Graduação em Meio
Ambiente (PPG-MA) - UERJ
UERJ –
© Oscar Luiz Monteiro de Farias
1
Estatística e Geoestatística
no
Monitoramento Ambiental
UERJ –
© Oscar Luiz Monteiro de Farias
2
Métodos Estatísticos...
• Métodos Estatísticos são necessários em MA porque em
geral não é possível caracterizar-se uma situação pela
observação direta.
• Amostragem – método para obtenção de informações
sobre parâmetros de interesse em localizações ou
instantes de tempo específicos.
• Alternativa à obtenção de informações sobre os
parâmetros em todo o universo.
• O uso de métodos estatísticos permite, a partir de
informações parciais, inferir informações sobre o todo.
UERJ –
© Oscar Luiz Monteiro de Farias
3
Métodos Estatísticos...
• Conjunto de dados univariável (univariate data set)
• Conjunto de dados multivariável (multivariate data set)
Ex.: quando se deseja analisar a concentração de
vários contaminantes diferentes em uma dada área.
• O conjunto de dados denomina-se amostra.
Ele pode ser visto como um subconjunto dos valores
possíveis que poderiam ser gerados caso coletássemos
informações em todo o universo (área total, no caso).
• Referimo-nos ao conjunto de todos os valores possíveis
como população.
UERJ –
© Oscar Luiz Monteiro de Farias
4
Métodos Estatísticos...
• Estatística Descritiva ou Exploratória – é usada
para descrever as características básicas dos
dados em estudo.
• consiste em computar uma ou mais estatísticas
resumo para uma amostra.
• A estatística resumo é um número único que
caracteriza um conjunto de dados de algum
modo.
• Freqüentemente inclui um ou mais gráficos.
UERJ –
© Oscar Luiz Monteiro de Farias
5
Métodos Estatísticos...
• Estatística Inferencial – neste casos usa-se o conjunto
de dados (sample data set) para se inferir algo sobre a
população.
• É uma boa prática se considerar a estatística descritiva
ou exploratória, antes de se considerar a estatística
inferencial.
• Métodos estatísticos espaciais – incluem informações
relacionadas à localização física da amostra.
• Em problemas ambientais pode ser necessário o uso de
métodos estatísticos espaço-temporais, em que, além
das coordenadas espaciais é essencial o registro das
coordenadas temporais.
UERJ –
© Oscar Luiz Monteiro de Farias
6
Métodos Estatísticos...
• Em avaliação e MA o objetivo não se limita em
caracterizar um local, mas em usar a
informação para a tomada de decisões.
• Tomar decisões sempre incorpora algum grau
de risco (p. ex. o risco de se tomar a decisão
errada).
UERJ –
© Oscar Luiz Monteiro de Farias
7
Amostras e população...
• Uma amostra é um conjunto de observações
individuais obtidas no processo de amostragem.
• Cada observação pode representar múltiplos aspectos
de informação, como, p.ex., a concentração de um ou
mais contaminantes.
• Este conjunto de números é chamado de dados (data).
• Antes da coleta dos dados é necessário considerar a
sua quantidade e o local de onde serão extraídos, bem
como o método de monitoramento utilizado.
UERJ –
© Oscar Luiz Monteiro de Farias
8
Amostras e população...
• Facilidade de acesso, tecnologia disponível, custos
associados à coleta física das amostras e à posterior
análise de laboratório podem limitar ou restringir a
quantidade e a qualidade da informação obtida no
processo de amostragem.
• Isto pode afetar a confiabilidade das conclusões
fundamentadas na análise estatística dos dados.
• É sempre importante saber-se de antemão como os
dados serão utilizados (quais as questões que serão
respondidas e quão confiáveis as respostas deverão
ser), antes da coleta de qualquer dado.
UERJ –
© Oscar Luiz Monteiro de Farias
9
Amostras e população...
• A validade das conclusões fundamentadas no
uso de métodos estatísticos depende da criteriosa
observação de algumas premissas. P.ex. Amostra
Randômica (Random Sampling) – significa que
a seleção de uma amostra é conduzida de tal
forma que qualquer subconjunto (com tamanho
fixo de amostra = n) da população tem igual
probabilidade de ser selecionado.
UERJ –
© Oscar Luiz Monteiro de Farias
10
Suporte da Amostra...
• Os valores dos dados freqüentemente
representam propriedades associadas a um dado
volume de matéria ou a uma determinada área.
Este volume ou área é denominado suporte da
amostra.
• P.ex. a porosidade de um solo é determinada
pela relação poros/volume. Poros grandes e
fraturas de solo em rochas não podem ser
detectados em núcleos de solo com suporte de
pequeno volume.
UERJ –
© Oscar Luiz Monteiro de Farias
11
Suporte da Amostra...
• A condutividade hidráulica e concentrações
químicas são valores médios em um dado
volume. Este volume monitorado é o suporte da
amostra.
• Em sensoriamento remoto o suporte da amostra
é o tamanho da área real que é representado em
um pixel.
UERJ –
© Oscar Luiz Monteiro de Farias
12
Variáveis Randômicas...
• Considere todos os valores possíveis para a
concentração de um dado contaminante nas
diversas localizações de uma região.
UERJ –
© Oscar Luiz Monteiro de Farias
13
Variáveis Randômicas...
• Se não existe informação sobre estes valores
para a região em questão, pode-se somente
especificar um domínio de valores possíveis.
• Até que uma localização específica na região
seja escolhida não temos um número único, mas
uma população de valores. O conceito de
variável randômica ajuda a lidar com a
incerteza.
• Ex. dado de 6 faces não viciado.
UERJ –
© Oscar Luiz Monteiro de Farias
14
Variáveis Randômicas...
• Uma variável randômica é caracterizada por
duas coisas:
i) o conjunto de valores possíveis de serem
assumidos pela variável;
ii) o conjunto de probabilidades de ocorrência
de cada um desses valores (distribuição de
probabilidade).
UERJ –
© Oscar Luiz Monteiro de Farias
15
Variáveis Randômicas...
• Uma variável randômica é discreta quando, ao
se plotar os seus possíveis valores ao longo da
reta real, sempre existe um espaço entre dois
pontos consecutivos.
• Uma variável randômica é contínua quando o
conjunto de possíveis valores é um intervalo ou
a união de vários intervalos.
UERJ –
© Oscar Luiz Monteiro de Farias
16
Variáveis Randômicas...
• Em algumas aplicações os atributos são
mensurados sem considerar a localização. Uma
população alvo é identificada e amostras
sistemáticas ou randômicas são coletadas.
• Em outras aplicações é útil se considerar a
localização. Por exemplo, se adicionalmente
aos parâmetros (e.g. renda) relativos a uma
população de famílias, um dos objetivos é
estudar o padrão espacial da distribuição da
renda.
UERJ –
© Oscar Luiz Monteiro de Farias
17
Distribuição de freqüência
• Freqüência é o número de vezes que um valor
especificado ocorre em uma amostra de
população finita.
• Freqüência relativa é a freqüência dividida pelo
tamanho da amostra.
• A freqüência relativa é uma estimativa da
probabilidade de ocorrência de um evento dado.
UERJ –
© Oscar Luiz Monteiro de Farias
18
Distribuição de freqüência
• Considere um estacionamento com 100 carros
(população). Destes, 30 são vermelhos, 40 brancos e
30 de outras cores. A probabilidade de que uma
amostra contenha carros vermelhos será de 0.3;
brancos, 0.4 e de outras cores, 0.3.
• Em ciências ambientais conhece-se os valores de
parâmetros para uma amostra, mas não para a
população.
• Pode-se, todavia, representar a população através de
uma variável randômica que pode seguir
aproximadamente um modelo de distribuição de
probabilidade discreto conhecido.
UERJ –
© Oscar Luiz Monteiro de Farias
19
Distribuição de probabilidade...
• Dada uma amostra, se computarmos as
freqüências relativas para cada valor possível
assumido pela variável randômica, teremos uma
estimativa da distribuição de probabilidade da
variável randômica.
• Para variáveis randômicas discretas pode-se
construir um gráfico de barras, com a abcissa
mostrando os valores da variável e a
coordenada, as freqüências relativas.
UERJ –
© Oscar Luiz Monteiro de Farias
20
Distribuição de probabilidade...
•
O conjunto de pares ordenados (x, f(x)) é uma
função probabilidade ou distribuição de
probabilidade da variável randômica discreta
X, se para cada possível valor X=x,
i) f (x) 0
ii)f(x)1
x
iii
)P
(X

x
)f(x
)
UERJ –
© Oscar Luiz Monteiro de Farias
21
Distribuição Cumulativa
• A distribuição cumulativa F(x) de uma variável
randômica discreta X com distribuição de
probabilidade f(x) é dada por:
F
(
x
)

P
(
X

x
)

f
(
t
),
para



x



t

x
UERJ –
© Oscar Luiz Monteiro de Farias
22
Distribuição de probabilidade...
• Para variáveis randômicas contínuas grupa-se
os membros da população dentro de classes ou
intervalos de valores para o atributo em estudo.
Para se obter a freqüência relativa, o número de
vezes em que o valor do atributo cai dentro de
um intervalo é dividido pelo tamanho da
amostra. Cada freqüência relativa é dividida
pelo tamanho do intervalo, fornecendo um valor
f(y). O gráfico “valor do atributo x f(y)”
fornece um histograma.
UERJ –
© Oscar Luiz Monteiro de Farias
23
Distribuição de probabilidade...
• Histogramas podem ser construídos para
amostras e populações de tamanho finito, mas
não para populações de tamanho infinito.
• Em particular, não é possível se construir
histogramas para variáveis randômicas
contínuas ou para variáveis randômicas
discretas que podem assumir um número
infinito de valores possíveis.
UERJ –
© Oscar Luiz Monteiro de Farias
24
UERJ –
© Oscar Luiz Monteiro de Farias
25
A) Histograma da freqüência medida; B) distribuição cumulativa da freqüência – para os
dados de argila da tabela anterior. A linha contínua é a curva teórica baseada em uma
distribuição normal com a mesma média e variância estimada a partir dos dados.
UERJ –
© Oscar Luiz Monteiro de Farias
26
Função densidade de probabilidade (fdp)...
• Pode ser pensada como a versão contínua de um
histograma.
• A função f(x) é uma fdp (probability density function pdf) para a variável randômica contínua X, definida
sobre o conjunto dos números reais R, se
i)f (x)0
,
x


ii
) f (x)dx
1


b
iii
)
P
(
a

x

b
)

)
dx
f(x
a
UERJ –
© Oscar Luiz Monteiro de Farias
27
Função densidade de probabilidade...
• A maioria das variáveis randômicas possuem
duas características numéricas importantes: i) a
média (); ii) a variância (2).
  é o desvio padrão.
• A média () é também chamada de valor
esperado (expected value) - E(X) - da variável
randômica X. Pode ser pensada como o ponto
de equilíbrio do gráfico de uma fdp.
• A variância indica o quanto os valores possíveis
estão dispersos relativamente à média.
UERJ –
© Oscar Luiz Monteiro de Farias
28
Média ou Valor Esperado...
• Seja X uma variável randômica com
distribuição de probabilidade f(x). A média ou
valor esperado de X é:


E
(X
)
xf
(x
) se X é discreta, e

x



E
(
X
)
(
x
)
dx
se X é contínua.
xf


UERJ –
© Oscar Luiz Monteiro de Farias
29
Média ou Valor Esperado...
• Exemplo: Considere um lote contendo 7 componentes, dos
quais 4 estão em bom estado e três apresentam defeitos. Uma
amostra de três componentes é selecionada por um inspetor.
Encontre o valor esperado do número de componentes em bom
estado encontrados na amostra.
• Solução: Seja X o número de componentes em bom estado na
amostra. A distribuição de probabilidade de X é dada por
4

 3




x

3


x

 
f(x
)
,x
0
,1
,2
,3
.
7



3


UERJ –
© Oscar Luiz Monteiro de Farias
30
Média ou Valor Esperado...
daí, segue-se que: f(0)=1/35; f(1)=12/35;
f(2)=18/35; f(3)=4/35; Portanto,
µ=E(X)=(0).(1/35)+(1).(12/35)+(2).(18/35)+
(3).(4/35)=12/7=1.7
UERJ –
© Oscar Luiz Monteiro de Farias
31
Média ou Valor Esperado...
• Seja X uma variável randômica com
distribuição de probabilidade f(x). A média ou
valor esperado da variável randômica g(X) é:

E
[
g
(
X
)]

g
(
x
)
f
(
x
)se X é discreta, e

g
(
X
)
x


E
[
g
(
X
)]

g
(
x
)
f
(
x
)
dx
se X é contínua.

g
(
X
)


UERJ –
© Oscar Luiz Monteiro de Farias
32
Fdp – curva normal (de Gauss)
N(y,0,1)
• Onde  é a média da população e  é o desvio
padrão da população.
• Variações na média deslocam a curva para a esquerda
ou para a direita.
• Variações no desvio padrão achatam ou espicham a
curva.
UERJ –
© Oscar Luiz Monteiro de Farias
33
Fdp – curva normal (curva de Gauss)
Fonte: http://www.comfsm.fm/~dleeling/statistics/normal_curve.gif
UERJ –
© Oscar Luiz Monteiro de Farias
34
UERJ –
© Oscar Luiz Monteiro de Farias
35
UERJ –
© Oscar Luiz Monteiro de Farias
36
UERJ –
© Oscar Luiz Monteiro de Farias
37
Cumulative density function (cdf)
x
F
(x)f(y)dy


UERJ –
© Oscar Luiz Monteiro de Farias
38
Cumulative density function (cdf)
c
P
(
x

c
)

F
(
c
)

)
dy
f(y


P
(
x

x

x
)

F
(
x
)

F
(
x
)
1
2
2
1
UERJ –
© Oscar Luiz Monteiro de Farias
39
Cumulative density function (cdf)
• A distribuição cumulativa ou função de
densidade cumulativa F(x) de uma variável
randômica contínua X com função de densidade
de probabilidade f(x) é dada por:
x
F
(
x
)

P
(
X

x
)

f
(
t
)
dt
,
par



x





P
(
a

x

b
)

F
(
b
)

F
(
a
)
UERJ –
© Oscar Luiz Monteiro de Farias
40
Curva normal...
• A distribuição de amostragem da média da amostra é
aproximadamente normal, ainda que a distribuição da
população da qual a amostra é coletada não seja
normal.
• A distribuição normal maximiza a entropia da
informação entre todas as distribuições com média e
variância conhecida, o que a torna a escolha natural
para a distribuição de dados sumarizados em termos da
média e variância da amostra.
• Na teoria da probabilidade a distribuição normal
aparece como a distribuição limite de várias famílias
de distribuição (discretas e contínuas).
UERJ –
© Oscar Luiz Monteiro de Farias
41
Distribuição Normal...



1


P
(
x

X

x
)

n
(
x
,
,
)
dx

e
d
1
2

2
x
x
1
1
x
2
x
2
2

(
1
/
2
)[(
x

)
/
]
• Fazendo a seguinte transformação de
coordenadas:
X  , teremos:
Z

1


P
(
x

X

x
)

e
dx
1
2

2
x
1
x
2
2

(
1
/
2
)[(
x

)
/]


UERJ –
© Oscar Luiz Monteiro de Farias
42
Distribuição Normal
z
2
2

(
1
/
2
)
z
1
P
(
z

Z

z
)
 
e dz
1
2
2
z
1

z
2
P
(
z

Z

z
)

n
(
z
;
0
,
1
)
dz
1
2

z
1
UERJ –
© Oscar Luiz Monteiro de Farias
43
Exemplo 1
• Dada uma distribuição normal com µ=50 e
=10, encontre a probabilidade de que X
assuma valores entre 45 e 62.
• Solução: Z=(X-µ)/ . Assim, os valores z
correspondentes a 45 e 62 são:
z1=(45-50)/10=-0.5 e z2=(62-50)/10=1.2
P(45<X<62) = P(-0.5<z<1.2) =
P(z<1.2)- P(z<-0.5) = 0.8849-0.3085=0.5764.
UERJ –
© Oscar Luiz Monteiro de Farias
44
Exemplo 2
• Dada uma distribuição normal com µ=40 e =6,
encontre o valor de x tal que: a) 45% da área
esteja à esquerda; b) 14% da área esteja à direita.
• Solução: P(z<z*)=0.45. Da tabela normal seguese que z*=-0.13. Daí X = *z +µ = 6 *(-0.13)+40
X=39.22
P(z>z´)=0.14 e P(z<z´)=0.86 e z´=1.08
X = *z +µ = 6 *(1.08)+40 = 46.48
UERJ –
© Oscar Luiz Monteiro de Farias
45
Exemplo
• Um certo tipo de bateria dura em média 3.0 anos, com
um desvio padrão de 0.5 anos. Assumindo que o tempo
de vida das baterias tenha uma distribuição normal,
encontre a probabilidade de que uma dada bateria dure
menos que 2.3 anos.
• Solução: Devemos encontrar P(X<2.3); Isto se
consegue através da transformada Z=(X-µ)/
Z=(2.3-3)/0.5=-1.4
P(X<2.3)=P(Z<-1.4)=0.0808.
UERJ –
© Oscar Luiz Monteiro de Farias
46
UERJ –
© Oscar Luiz Monteiro de Farias
47
UERJ –
© Oscar Luiz Monteiro de Farias
48
Distribuição log-normal...
• Em alguns casos os histogramas exibem forte
assimetria. Tal fato é comum no estudo de
concentrações químicas e em outros atributos.
• Contudo a distribuição pode tornar-se próxima
da normal quando se aplica a transformação Ln
(natural log) à variável randômica não-normal
X, i.e., Y = Ln X.
• Diz-se que a variável X tem uma distribuição
log-normal.
UERJ –
© Oscar Luiz Monteiro de Farias
49
Distribuição log-normal...


exp(


0
.
5
)


exp(
2


)[exp(
)
1
]
y
2
y
2
y
2
y
2
y
• A exponencial da média aritmética do dado log
transformado Ln z é a média geométrica:
n
n
1
n
G

x
exp[
ln
x
]


i
i
n
i

1
i

1
UERJ –
© Oscar Luiz Monteiro de Farias
50
Exemplo
A tabela a seguir fornece 60 valores de concentração de
chumbo no solo (z). Os valores são plotados na fig.A e
estendem-se por um amplo domínio. Um histograma
(fig.B), construído usando-se intervalos de classe de 20
(mg/Kg) mostra uma preponderância de pequenos valores
nas classes 0-20, 20-40 e 40-60. Contudo existem valores
maior que 100 e pelo menos dois deles superiores a 250.
Fazendo-se y = ln z (fig. C) os valores mostram-se mais
uniformemente distribuídos, como se nota pelo histograma
da transformada (fig. D). Isto não significa
necessariamente que a distribuição é log-normal. Mas
testes seriam necessários para comprovar isto.
UERJ –
© Oscar Luiz Monteiro de Farias
51
UERJ –
© Oscar Luiz Monteiro de Farias
52
UERJ –
© Oscar Luiz Monteiro de Farias
53
UERJ –
© Oscar Luiz Monteiro de Farias
54
UERJ –
© Oscar Luiz Monteiro de Farias
55
UERJ –
© Oscar Luiz Monteiro de Farias
56
Variância x suporte da amostra
• Quanto menor o suporte da amostra observa-se
que a variância assume valores maiores.
UERJ –
© Oscar Luiz Monteiro de Farias
57
Curva normal...
• A importância da distribuição normal como um
modelo de fenômenos quantitativos nas ciências
naturais e comportamentais deve-se ao teorema
do limite central:
• Se X é a média de uma amostra randômica de
tamanho n coletada de uma população com
média  e variância finita 2, então a forma
limite da distribuição de
X 
quando n

Z
/ n
é uma distribuição normal padrão n(z,0,1).
UERJ –
© Oscar Luiz Monteiro de Farias
58
Tamanhos de amostra e intervalos de
confidência
• Uma variável randômica normal é completamente
caracterizada quando são conhecidas as suas média (µ )
e variância ().
• Uma questão comum em MA e amostragem é: qual o
tamanho da amostra para se estimar adequadamente
estes dois parâmetros?
• O tamanho da amostra ou número de localizações (n)
necessários para estimar a média depende da tolerância
ou erro d que estejamos dispostos a admitir na
estimativa e também no grau de confidência de que o
erro seja realmente menor do que d.
UERJ –
© Oscar Luiz Monteiro de Farias
59
Distribuição de amostragem
• A distribuição de probabilidade de uma estatística é denominada
uma distribuição de amostragem (sampling distribution).
• A distribuição de probabilidade de X é chamada distribuição de
amostragem da média.
• A distribuição de amostragem de X com tamanho de amostra n é
a distribuição que resulta quando um experimento é conduzido
inúmeras vezes (sempre com tamanho de amostra n) e os diversos
valores de X resultam .
• Esta distribuição de amostragem descreve a variabilidade das
médias das amostras em torno da média da população μ.
UERJ –
© Oscar Luiz Monteiro de Farias
60
A Propriedade reprodutiva
• Teorema: Se X1, X2, ......, Xn são variáveis randômicas
independentes tendo distribuição normal com médias
μ1, μ2, ......, μn e variâncias σ1, σ2, ...... σn ,
respectivamente, então a variável randômica
Y

a
X

a
X

...

a
X
1
1
2
2
n
n
tem uma distribuição normal com média

a


a


.....

a

Y
11
22
nn
e variância


a


a


.....

a

2
Y
UERJ –
22
11
22
22
22
nn
© Oscar Luiz Monteiro de Farias
61
Distribuição de amostragem das médias
• Supor que uma amostra randômica com n observações é
selecionada de uma população normal com média μ e variância
σ2. Cada observação Xi, i=1,2,...,n, da amostra randômica terá a
mesma distribuição normal da população que está sendo
amostrada. Pelo teorema anterior...




X

X

...

X


...

1
2
n
X

,
mas


X
n
n




...





2
2
X
UERJ –
2
n
2
2
n
© Oscar Luiz Monteiro de Farias
62
i) Variância da pop. é conhecida
• Deseja-se estimar a média (µ) de uma variável
randômica normal assumindo-se que o desvio
padrão () é conhecido.
• Pode-se mostrar que a média da amostra é
também normalmente distribuída ( X =µ) e a
2
variância da amostra

x2 
n
UERJ –
© Oscar Luiz Monteiro de Farias
63
Distribuição de amostragem
• A distribuição de probabilidade de uma estatística é denominada
uma distribuição de amostragem (sampling distribution).
• A distribuição de probabilidade de X é chamada distribuição de
amostragem da média.
• A distribuição de amostragem de X com tamanho de amostra n é
a distribuição que resulta quando um experimento é conduzido
inúmeras vezes (sempre com tamanho de amostra n) e os diversos
valores de X resultam .
• Esta distribuição de amostragem descreve a variabilidade das
médias das amostras em torno da média da população μ.
UERJ –
© Oscar Luiz Monteiro de Farias
64
Usando o teorema do limite central, onde
teremos:
UERJ –


X 
Z
/ n

X

P
(

z
 
z
)

1



/
2
/
2
/n
© Oscar Luiz Monteiro de Farias
65
  
(I)
P
(

z
/n

X


z
/n
)

1



/
2
/
2
(z z
)
1


/2
Onde P

/2
Mas, pode-se reescrever (I) como:
  
P
(
X

z
/
n


X

z
/
n
)

1
(II)


/
2
/
2
O que representa um intervalo de confiança (1-)*100%
para .
UERJ –
© Oscar Luiz Monteiro de Farias
66
z/ 2
Agora seja o erro tolerável d 
n
z/2 2
]
Ou ainda, n[
d
Assim, para um dado nível de confiança e uma dada
tolerância d, pode-se prever o tamanho da amostra.
Note que os cálculos para computar o intervalo de
confiança e o tamanho da amostra dependem de duas
premissas importantes: i) a variável randômica seja
normal; ii) o desvio padrão seja conhecido.
UERJ –
© Oscar Luiz Monteiro de Farias
67
• Na equação (II) nem sempre a média e o desvio
padrão são conhecidos.
• Após a coleta de dados, então um intervalo
similar ao da equação (II) pode ser calculado:


st
st


/
2
,
n

1
/
2
,
n

1
(III)
P
(
X
 

X

)

1

n
n
Onde t/2,n-1 é obtido a partir de uma t-table ou função
spreadsheet. t/2,n-1 se aproxima de z/2, à medida que
n cresce. [t/2,n-1 > z/2].
UERJ –
© Oscar Luiz Monteiro de Farias
68
Exemplo 3.3
• Suponha que uma amostra randômica de tamanho 16
foi selecionada a partir de uma população com
distribuição normal e que a média da amostra seja
igual a 22.4. Assuma que o desvio padrão da
população -  - é 3.2. Deseja-se obter intervalos de
confidência de 95% e de 99% para a média
(desconhecida) µ.
• Solução: Neste caso pode-se usar a eq. (II), pois o
desvio padrão é conhecido. 1-=0.95. Logo =0.05 e
/2=0.025. A partir de uma tabela normal encontra-se
z0.025=1.96.
UERJ –
© Oscar Luiz Monteiro de Farias
69
Exemplo 3.3
Assim o intervalo de confidência de 95%
corresponde a:
22.4 – (1.96*3.2)/4<µ< 22.4 + (1.96*3.2)/4 ou
22.4 -1.568 <µ< 22.4 + 1.568
• Para o intervalo de confidência de 99%:
1-=0.99, logo =0.01 e /2=0.005.
A partir de uma tabela normal tem-se:
22.4 – (2.576*3.2)/4<µ< 22.4 + (2.576*3.2)/4
UERJ –
© Oscar Luiz Monteiro de Farias
70
Exemplo 3.4
• Suponha que se deseje obter intervalos de confidência
de 95% e 99% para a média de uma população
uniformemente distribuída, em que o desvio padrão da
população é 3.2. Desejando-se o máxima tolerância
d=0.75, qual deverá ser o tamanho da amostra?
z/2 2
n[
]
d
2
1
.
96
*
3
.
2


Logo n=70
n


69
.
93


.
75
0

2
2
.
576
*
3
.
2


Logo n=120
n


120
.
80


.
75
0

UERJ –
© Oscar Luiz Monteiro de Farias
71
Algumas conclusões
• I) Se o tamanho da amostra é fixo (e o desvio padrão
da população - - é conhecido), então quanto maior o
nível de confidência, maior será o intervalo de
confidência.
• II) Dada a informação (média da amostra, tamanho da
amostra e desvio padrão da população), existe um
intervalo de confidência para cada escolha do nível de
confidência.
• III) Um maior nível de confidência corresponde a uma
amostra de tamanho maior, permanecendo constantes
as demais condições.
UERJ –
© Oscar Luiz Monteiro de Farias
72
Exemplo 3.5
• Suponha que uma amostra randômica de tamanho 16
foi selecionada a partir de uma população com
distribuição normal e que a média da amostra seja 22.4
e o desvio padrão da amostra 3.2. Deseja-se obter
intervalos de confidência de 95% e 99% para a média
da população.
• Solução: Neste caso usa-se a t-table ao invés da tabela
normal, pois o desvio padrão da população não é
conhecido. 1-=0.95, logo =0.05 e /2=0.025.
t0.025,15= 2.131
UERJ –
© Oscar Luiz Monteiro de Farias
73
Exemplo 3.5
22.4 – (2.131*3.2)/4<µ< 22.4 + (2.131*3.2)/4
Para 1-=0.99, logo =0.01 e /2=0.005
t0.005,15= 2.947, resultando em:
22.4 – (2.947*3.2)/4<µ< 22.4 + (2.947*3.2)/4
• Nota-se que o intervalo de confidência 99% é maior
que o intervalo de confidência 95%, mas cada um
destes dois é maior do que as suas contrapartes,
quando o desvio padrão  da população é conhecido.
• Quando o tamanho da amostra é maior ou igual a 30,
os valores da t-table aproximam-se dos valores na
tabela normal.
UERJ –
© Oscar Luiz Monteiro de Farias
74
Exemplo 3.6
• Em aplicações reais, o desvio padrão da população
pode não ser conhecido e, mesmo assim, deseja-se
prever o tamanho da amostra para um dado nível de
confidência para a média da população, i.e., deseja-se
fixar o nível de confidência e a tolerância.
• O problema deve ser resolvido em vários passos.
 define-se um tamanho de amostra baseado em outras
considerações, tais como custo da amostragem,
facilidade da amostragem, etc.)
Seleciona-se a amostra e computa-se o seu desvio
padrão - s -.
UERJ –
© Oscar Luiz Monteiro de Farias
75
Exemplo 3.6
Usa-se s como se fosse o desvio padrão da população e
computa-se o tamanho da amostra.
Se o valor projetado para o novo tamanho da amostra é
maior que o tamanho da amostra anterior, deve-se
coletar uma nova amostra (cuidado! em geral não se
pode adicionar novas observações à amostra anterior;
tal procedimento não resultaria em uma amostra
randômica).
Continua-se o processo descrito em  até que o novo
tamanho projetado da amostra seja próximo ao
tamanho da amostra anterior.
UERJ –
© Oscar Luiz Monteiro de Farias
76
Exemplo 3.6
Usa-se, então, a média da última amostra
coletada e o desvio padrão desta última
amostra, juntamente com valor (n-1) da t-table,
para gerar-se o desejado intervalo de
confidência.
 Não há garantia alguma de que este processo
páre rapidamente.
 Conclusão: estimar o desvio padrão  é mais
complexo que estimar-se a média µ.
UERJ –
© Oscar Luiz Monteiro de Farias
77
Exemplo 3.7
• A partir dos dados da tabela 3.1 (percentuais de argila),
encontramos a média da amostra = 35.3 e o desvio
padrão da amostra = 6.38. O tamanho da amostra é n=36.
Os níveis de confidência são especificados em 95% e
99%.
Para 1-=0.95, logo =0.05 e /2=0.025.
t0.025, 35=2.030 e assim o intervalo de confidência é:
35.3 – (2.030*6.38)/6<µ< 35.3 + (2.030* 6.38)/6
Para 1-=0.99, logo =0.01 e /2=0.005
t0.005,35= 2.738, resultando em:
35.3 – (2.738*6.38)/6<µ< 35.3 + (2.738* 6.38)/6
UERJ –
© Oscar Luiz Monteiro de Farias
78
Exemplo 3.7
• Pode-se pensar que estes intervalos de confidência são
muito largos (elevada tolerância) e deseja-se obter mais
amostras. Qual deveria ser o tamanho da amostra para se
obter uma tolerância de 0.8, com um nível de
confidência de 95%?
• Para 1-=0.95, logo =0.05 e /2=0.025, t0.025, 35=2.030
2
2
.
030
*
6
.
38


n


262
.
09
Usar n=263


.
8 
 0
2
2
.
738
*
6
.
38


intervalo de confidência=0.99%
n


477


.
8 
 0
UERJ –
© Oscar Luiz Monteiro de Farias
79
Testes adicionais
• Existem meios de se testar se uma distribuição é
normal
UERJ –
© Oscar Luiz Monteiro de Farias
80
Covariância...
• Covariância é a medida do quanto duas variáveis
randômicas mudam conjuntamente.
• Se duas variáveis randômicas X e Y tendem a variar
juntas (i.e., quando uma delas está acima do valor
esperado, então a outra tende a estar também acima do
seu valor esperado) então a covariância entre as duas
variáveis será positiva.
• Por outro lado, se uma delas tende a estar acima do seu
valor esperado e, outra, abaixo do seu valor esperado,
a covariância entre as duas variáveis será negativa.
UERJ –
© Oscar Luiz Monteiro de Farias
81
Covariância...
• Definição: A covariância entre duas variáveis
randômicas X e Y, assumindo valores reais, com
valores esperados E(X)=µ e E(Y)= é definida
por:
COV(X,Y)=E((X-µ)(Y- )), onde E é o operador
valor esperado.
COV(X,Y)=E(X.Y-X.-µ.Y+µ.)
COV(X,Y)=E(X.Y)-E(X). -µ.E(Y) +µ.
COV(X,Y)= E(X.Y)-µ. = E(X.Y)- E(X). E(Y)
UERJ –
© Oscar Luiz Monteiro de Farias
82
Coeficiente de correlação de Person
Cov
(
X
,
Y
)


,

1



1 Se ||=1, então X e Y são

.

x
y
linearmente dependentes.
• A covariância pode ser estimada pela covariância da
amostra:
1n
s
 
(
x
x
)(
y
y
)
xy
i
i
n

1
i

1
• O coeficiente de correlação da amostra é uma forma
sxy
normalizada da covariância da amostra:
r
UERJ –
© Oscar Luiz Monteiro de Farias
sx sy
83
Coeficiente de correlação
• O coeficiente de correlação indica a intensidade
e a direção de uma relação linear entre duas
variáveis randômicas.
UERJ –
© Oscar Luiz Monteiro de Farias
84
Distribuição normal multivariada
• A distribuição normal é completamente determinada
pela sua média µ e pela sua variância  .
• Uma distribuição normal multivariada é

completamente determinada pelo vetor das médias 
e pela matriz de variâncias e covariâncias. Ex. para 3
variáveis randômicas:
s12 s12 s13


2
Ss21 s2 s23
s s s2 
 31 32 3 
UERJ –
© Oscar Luiz Monteiro de Farias
85
Regressão Linear
UERJ –
© Oscar Luiz Monteiro de Farias
86
Download

Document