Gráfico de Probabilidades
Objetivo: Verificar se um conjunto de dados pode ter sido gerado a partir de
uma específica distribuição de probabilidades contínua.
Exemplo: Os dados abaixo se referem aos retornos da Petr4 observados em
20 dias. Há evidências de que esses dados seguem uma distribuição normal?
Tabela 1: Retornos compostos da Petr4 observados entre 22/03 e 19/04 de
2012.
Data
X: Retorno (%)
22/03/2012
-1,294
23/03/2012
-0,421
26/03/2012
2,129
27/03/2012
-1,708
28/03/2012
-1,738
29/03/2012
-0,300
30/03/2012
0,129
02/04/2012
-0,515
03/04/2012
-2,971
04/04/2012
-3,566
05/04/2012
1,097
09/04/2012
-1,881
10/04/2012
-1,87
11/04/2012
0,752
12/04/2012
3,045
13/04/2012
-1,557
-0,741
16/04/2012
17/04/2012
0,325
0,831
18/04/2012
19/04/2012
-1,435
Média
-0,584
DP
1,643
A lógica da construção desse tipo de gráfico é comparar os dados observados
(x) com os dados que esperaríamos ter observado caso eles seguissem a
distribuição de probabilidades. Caso fosse possível criar uma coluna (y) com
esses valores esperados e se dispuséssemos os pontos (x,y) num eixo
cartesiano esperaríamos, casos os dados de fato tivessem sido gerados pela
1
distribuição de probabilidades proposta, que os pontos se distribuíssem
aleatoriamente ao redor da reta da reta de 45º.
O resultado abaixo fundamenta a obtenção dos valores esperados.
Resultado: Seja X uma variável aleatória contínua com função distribuição
acumulada dada por F(x). Então, se ‫ܨ = ݌‬ሺ‫ݔ‬ሻ, então ‫ି ܨ = ݔ‬ଵ ሺ‫݌‬ሻ
Tabela 2: Amostra ordenada
i:Observação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Média
DP
x: dados
ordenados
-3,566
-2,971
-1,881
-1,87
-1,738
-1,708
-1,557
-1,435
-1,294
-0,741
-0,515
-0,421
-0,300
0,129
0,325
0,752
0,831
1,097
2,129
3,045
-0,584
1,643
Note que a observação 0,129 é menor ou igual a 70% dos dados amostrais.
Desse modo, se a distribuição dos dados fosse de fato uma normal,
esperaríamos que 0,129 estivesse próximo ao percentil 70 de uma normal com
média -0,584 e desvio-padrão 1,643 (valores obtidos a partir da amostra). Esse
raciocínio poderia ser aplicado para obtenção da coluna de valores esperados.
No entanto, teríamos um problema com o valor 3,045. Esse valor é menor ou
igual a 100% dos dados. Seria impossível obter o valor esperado de uma
2
normal que deixasse 100% as observações abaixo dele. Assim foi sugerida
uma pequena alteração na determinação do percentil amostral. Essa alteração
denomina-se Função distribuição acumulada empírica.
Definição. Função distribuição acumulada empírica (FDAE). Seja i a i-ésima
observação ordenada de uma amostra de tamanho n. Então o valor FDAE para
esse valor é dado por
‫ܨ‬෠ ሺ݅ሻ =
݅ − 0,5
݊
A partir da definição acima, temos que o valor esperado, associado à i-ésima
observação ordenada, é dado por
‫ܨ = ݕ‬෠ ିଵ ൬
݅ − 0,5
൰
݊
Voltando ao exemplo, temos que ‫ ܨ‬é a distribuição acumulada de uma
distribuição normal com média -0,584 e desvio-padrão 1,643.
A Tabela 3 descreve o processo de obtenção dos valores esperados para os
dados do Exemplo.
O próximo passo é dispor os pares ordenados (x,y) num eixo cartesiano e
comparar a disposição dos pontos com a reta de 45º. A Figura 1 traz esse
gráfico.
Note que, na Figura 1, os pontos parecem estar aleatoriamente distribuídos ao
redor da reta de 45º. Isso nos leva a concluir que a distribuição normal pode
ser uma boa candidata a distribuição geradora desses dados. No entanto, esse
método é puramente descritivo e deve ser utilizado com cuidado.
Um cuidado a ser tomado é com o tamanho amostral. São necessárias muitas
observações para que esse tipo de técnica seja realmente eficaz. A Figura 2,
traz informações sobre os mesmos retornos, só que no período entre
20/04/2011 e 19/04/2012 (250 observações). Analisando-se esse gráfico,
somos levados a concluir que a distribuição normal não é adequada para
descrever esse conjunto de dados.
Essa técnica pode ser utilizada para verificar a aderência de um conjunto de
dados a qualquer distribuição de probabilidades. Basta para isso, utilizar a
função distribuição acumulada correspondente. Além disso, sugere-se que os
parâmetros da distribuição sejam estimados a partir dos dados.
Vários pacotes estatísticos e econométricos já trazem opções para a
construção de gráficos semelhantes aos aqui apresentados. Variações desse
3
método surgem com os nomes: Gráficos QQ, Gráficos de quantis, Gráficos PP,
etc.
A planilha GraficodeProbabilidade.xlsx traz a memória de cálculo associada a
este texto.
Tabela 3: Obtenção dos valores esperados para os dados do Exemplo.
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
࢏ − ૙, ૞
࢏ − ૙, ૞ ࢟ = ࡲ
ି૚
෡
൬
൰
x (amostra ordenada)
࢔
࢔
-3,566
-2,971
-1,881
-1,87
-1,738
-1,708
-1,557
-1,435
-1,294
-0,741
-0,515
-0,421
-0,300
0,129
0,325
0,752
0,831
1,097
2,129
3,045
0,025
0,075
0,125
0,175
0,225
0,275
0,325
0,375
0,425
0,475
0,525
0,575
0,625
0,675
0,725
0,775
0,825
0,875
0,925
0,975
-3,805
-2,950
-2,475
-2,120
-1,826
-1,567
-1,330
-1,108
-0,895
-0,687
-0,481
-0,274
-0,061
0,161
0,398
0,657
0,951
1,306
1,781
2,636
4
Gráfico de probabilidade normal
4
3
y: valor esperado
2
-4
1
0
-3
-2
-1
-1 0
1
2
3
4
0,040
0,060
-2
-3
-4
-5
x: valor observado
Figura 1: Gráfico de probabilidade normal
Gráfico de probabilidade normal
0,080
0,060
Valores esperados
0,040
-0,100
0,020
-0,080
-0,060
-0,040
0,000
-0,020
-0,0200,000
0,020
-0,040
-0,060
-0,080
-0,100
Valores observados
Figura 2: Gráfico de probabilidade normal para 250 observações (dados
de 1 ano)
5
Download

Gráfico de Probabilidades 2013