Perspectivas sobre a Estatística de Extremos,
Resultados básicos e problemas em aborto
POR J. TIAGO DE OLIVEIRA
Conferencia expuesta en la Academia
el día 6 de Junio de 1990
Académico correspondiente
Resumen
Tras presentar la importancia y las aplicaciones de la Teoría de Valores Extremos, se dedican
unas páginas a una breve historia de la cuestión.
A continuación se exponen los resultados básicos relativos a extremos de variables univariantes y las leyes de los grandes números, así como las tres distribuciones asintóticas de máximos.
Después se consideran las condiciones de convergencia para una distribución asintótica y la velocidad de convergencia. También se da la forma de la distribución asintótica del extremo de orden
JTL, así como la dualidad o regla de conversión de los resultados de máximos a de mínimos.
Utilizando las distribuciones asintóticas como aproximaciones a las distribuciones exactas de
los máximos (o bien de los mínimos), se estudian los métodos estadísticos para la estimación de
los parámetros, los métodos analíticos para elegir entre una de las distribuciones para ajustar los
datos y para reunir datos relativos a muestras de diferentes dimensiones.
Finalmente, se consideran máximos (y mínimos) bivariantes dando la forma general de distribución asintótica bi varían te. Tras una conversión adecuada a mínimos, con márgenes estandard
exponenciales, se presenta un estimador intrínseco (no paramétrico) de la función de dependencia.
Siimiíiary
After the presentation of the importance and the application of Extreme Value Theory, few
pages are devoted to a brief history of the subject.
Then, the basic results for univariate extremes are given, essentially for maxima. The basic
results presented are the laws of large numbers and the three asymptotic distributions of maxima.
Subsequently, the conditions of convergence are dealt with. Also is given the form of the asymptotic
distribution of the m-th extremes as well as the duality or rule of conversion of maxima results
to minima ones.
Using the asymptotic distributions as approximations to the exact distribution of maxima
(or correspondingly minima) statistical methods for estimation of the parameters, the analytical
method to choose between one of the distributions to fit data and pooling of data on maxima
from samples of different size are dealt with.
Finally bivariate maxima (and minima) are considered giving the general form of bivariate
asymptotic distributions. After a convenient conversion to minima with exponential standard
margins, an intrinsic (non-parametric) estimator of the dependence function is presented.
454
J. TIAGO DE OLIVEIRA
Ao trazer esta minha primeira exposiçâo à Real Academia de Ciencias de
Madrid, Academia que, através da sua historia, tanto esforço tem realizado
no desenvolvimento, pesquisa e difusao da Ciencia, quero saudar todos os
seus membros, expressando-lhes o meu respeito e, ao mesmo tempo, apresentar-lhes as minhas desculpas por só agora vir relatar algo sobre o tema
de investigaçâo e estudo no qual venho trabalhando há anos.
Vou, pois, tentar esclarecer um pouco da problemática dos extremos uni
e bivariados em Estatística bem como referir algumas das muitas dificuldades que temos de enfrentar. Para definir, em antítese, e com poucas palavras,
a situaçâo actual da Estatística de Extremos, diría que ela é, de algum modo, inversa daquela em que nos encontramos com respeito à Estatística das
populaçoes normáis. Para esta última pode dizer~se, com certo exagero, que
quase toda a metodología está estruturada, grande parte dos problemas de
inferencia estao resolvidos, estando disponíveis os métodos e as técnicas para
os abordar e aplicar. Como se verá, na Estatística de Extremos, embora um
grupo de estudiosos se Ihe venha dedicando de há uns 50 a 60 anos, a situaçâo é mais complexa, havendo muitos problemas para resolver, dispondo
nos de menos instrumentos de trabalho.
!•
Intéresse e aplicaçôes
Falemos, em primeiro lugar, da importancia prática dos extremos. A
aplicaçâo da Estatística de Extremos está ligada ao problema de atingir,
estocasticamente, máximos ou mínimos ou à excedencia (por infra- e ultrapassagem) de níveis críticos.
Uma cheia é um máximo do débito ou caudal de um rio. E as cheias mais
recentes bem como os desastres que causam mostram que é extremamente
importante dispor de uma teoría do comportamento aleatorio dos máximos
dos ríos, a fim de evitar ou, pelo menos, tentar obviar aos prejuízos que as
cheias podem provocar. Inversamente, uma seca é um mínimo do débito de
um rio. Se esse débito ficar abaixo de um certo nivel (de perigo) surgem nao
só os riscos da falta de abastecimento de agua as cidades como os que resultam do nao arrastamento de poluentes, dos esgotos, etc., podendo provocar
problemas de saúde pública.
Análogamente, quer a fadiga de materiais quer a ruptura de pecas podem ser encarados como problemas de mínimos. A ideía-base orientadora
é a seguinte: se considerarmos una peca (um provete, por exemplo) como
um conjunto de elos (ou secçôes) a que se aplica, ñas duas pontas, uma
determinada tensâo, a peça (conjunto de elos), rompe logo que parte o elo
mais fraco. E pois um problema de mínimos visto ser a ultrapassagem da
resistencia mínima das diversas secçôes da peça que origina a ruptura.
Um outro exemplo de área em que os extremos tém importancia é o
estudo da longevidade ou da duraçâo da vida, de pecas, de instrumentos,
animal ou humana. Tem-se verificado, como era de esperar, que em geral as
duraçôes máximas (anuais) da vida humana seguem uma das distribuiçôes de
máximos e que a duraçâo individual de vida (animal ou humana) segue uma
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
455
distribuçâo de mínimos-o mínimo de duraçôes possiveis correspondentes a
causas de morte (doenças, desastres, etc.), consoante a Teoría Competitiva
dos Riscos.
Nova área de aplicaçôes é o estudo das rajadas de vento, velocidades
extremamente elevadas, que podem provocar rupturas ou acidentes, e têm,
portante, grande importancia aeronáutica. Análogamente se pode falar de
ondas extremas e dos seus riscos, etc. Outros detalhes sobre aplicaçôes podem ver-se em Gumbel (1958).
Do ponto do vista conceptual as ideias básicas da Estatística de Extremos
podem ser expostas de modo simples. De um conjunto (ou série) de observaçôes aleatorias -a amostra- pretende-se estudar o comportamento estatístico do máximo ou do mínimo da amostra, do 2° máximo ou do 2^ mínimo,
a excedencia de um nivel crítico, etc. E intuitivo que o estudo desse comportamento será mais simples se as variáveis aleatorias (observaçôes) forem
independentes e idénticamente distribuidas e mais complexo se uma das
duas ou ambas as restriçôes forem suprimidas ou enfraquecidas.
Adiante detalharemos alguns destes aspectos.
Porém, a manipulaçâo formal das distribuiçôes de extremos é multas vezes complexa e difícil, recorrendo~-se por isso ao uso das distribuiçôes limites
que, guando existem, se adaptam bastante bem, como boa aproximaçao, a
grandes (e também a médias) amostras.
O estudo metódico do comportamento assintótico dos extremos das estatísticas associadas e de algumas das suas aplicaçôes, pode encontrar-se nos
textos de Gumbel (1958), Galambos (1978, 1987), Leadbetter, Lindgren and
Rootzén (1983) e Resnick (1987) bem como no curso (NATO-ASI) editado
por Tiago de Oliveira (1984) e no simposio editado por Httsler and Reiss
(1989).
2.
U m pouco de historia.
O inicio da historia da Estatística de Extremos pode talvez situar-se
no trabalho de Dodd (1923) onde é obtida a distribuiçâo exacta dum máximo e dum mínimo de n observaçôes i.i.d. (independentes e idénticamente
distribuidas). Houve, porém, trabalhos anteriores de menor importancia.
Seguem-se os trabalhos de Fréchet (1927), de Fisher and Tippet (1928)
de Gumbel (1935), de von Mises (1936) e finalmente o artigo, de cúpula,
de Gnedenko (1943). Estes trabalhos constituem o que se pode chamar a
doutrina básica dos comportamentos assintóticos dos extremos. Esta teoría,
num paraleló intencional, é, em parte, análoga à teoría desenvolvida, para a
distribuiçâo limite de somas (ou médias) de variáveis aleatorias por Laplace
e Gauss, terminada globalmente com os trabalhos de Lindberg e Levy cerca
de 1925 e prolongada e completada depois por artigos posteriores.
Pela mesma época de Finetti (1932) abordou a vaHdade das Leis dos
Grandes Números para extremos.
Podem ter interesse alguns comentarios rápidos sobre estes diversos estudos. O artigo de Dodd (1923) é um trabalho fundamental em que sao obtidas
456
J. TIAGO DE OüVEIRA
as distribuiçôes exactas de extremos (máximos e mínimos). O de Fisher and
Tippet (1928), como é típico em Fisher, usa uma intuiçâo genial, nao provada e que só veio a sê-lo, rigorosamente, por Gnedenko (1943), bascado
no teorema da convergencia dos tipos de Khintchine. O artigo de Fréchet
(1927) trata de uma das distribuiçôes do trabalho de Fisher and Tippet mas
em perspectiva inversa. Com o artigo de von Mises (1936) é iniciado um
novo método, método também usado, de modo pouco rigoroso mas muito
intuitivo, em Gumbel (1935). Von Mises e Gumbel, que estiveram ligados
a estudos actuaríais, utilizam para determinaçâo da distribuiçâo assintótica
dos máximos o estudo do comportamento, para grandes valores, de taxa de
quebras on força de mortalidade, muito usada em Matemática Actuarial,
Demografía e FiabíHdade. O trabalho de Gnedenko (1943) sistematiza quase totalmente, o comportamento aleatorio dos extremos das amostras i.i.d.
mas a atracçâo para a distribuiçâo, dita, de Gumbel, nao é caracterízada ai
de modo pragmático, o que mais tarde foi conseguido. Esse artigo é fundamentalmente o tal paralelo, para a teoría dos máximos, dos trabalhos que
se tinham feíto para as somas, marcado exactamente pelas mesmas duas
etapas: uma primeira em que se obtém uma leí de grandes números e se
usa a noçâo de estabihdade relativa* e uma segunda (mais importante) que
leva à teoría dos comportamentos assintóticos, como por exemplo, é feíto no
livro de Gnedenko e Kolmogoroff (1954) onde o desenvolvímento da teoría
é perfeítamente marcado das duas etapas anteriores. Há aínda com outras
semelhanças.
Nesta fase inicial, obtém-se os comportamentos assintóticos dos extremos para observaçôes (variáveis aleatorias) i.i.d.. A etapa seguinte de trabalhos, para continuar um pouco da historia, vai ser a tentativa de libertaçâo
da condiçâo de independencia, da de distribuiçâo idéntica ou de ambas.
O artigo de Juncosa (1949) mantém a restriçâo de independencia e Uberta-se da outra; em contrapartida, os trabalhos de Watson (1954), Newell
(1964), Loynes (1965) e outros, Hbertam-se da restriçâo de independencia,
mas usando a condiçâo de estacionaridade e certas restriçôes na dependencia
(mantendo-se pois a igual distribuiçâo das margens do processo estocástico
que se estuda).
Trabalhos de intéresse sobre extremos em sequéncias aleatorias, além
dos indicados, sao os de Berman (1962', 1964), Barndorff-Nielsen (1963),
Leadbetter (1974) e outros. Os resultados assintóticos sao semelhantes pelo
que, multas vezes, usamos a teoria assintótica dos extremos i.i.d. mesmo
quando nao se pode pressupor a independencia ou a igual distribuiçâo das
margens.
Como é evidente apenas traçamos, até agora, a historia dos comportamento assintótico das distribuiçcoes univariadas, quer no caso das sequéncias
de variáveis aleatorias i.i.d. quer no caso mais geral. Duas ordens de generalizaçâo surgem naturalmente. O estudo das distribuiçôes assintóticas
multivariadas foi iniciado por Tiago de Ohveira (1958, 1962/63), Geffroy
(1958/59) e Sibuya (1960), usando a generalizaçâo aos métodos unidimensio*Hoje chamadas as leis aditiva e multiplicativa dos grandes números para extremos.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
457
nais. Exposiçôes, datadas todas elas, sao as de Tiago de Oliveira (1978/79),
Tiago de Oliveira ed. (1984) e Hüsler and Reiss eds. (1989). A outra direcçâo é, evidentemente, a passagem do estudo assintótico dos extremos
de processos em tempo discreto aos de tempo continuo (processos estocasticos permanentes) em que os primeiros trabalhos sao os de Rice (1939,
1944, 1945), Cartwright and Longuet-Higgins (1956), Cramer (1962, 1965),
O'Brien (1974) e outros. Um tipo especial de processos, os processos extremáis, foi definido por Lamperti (1964), Dwass (1964, 1966), Tiago de
Oliveira (1968') e estendido entre outros por Tiago de Oliveira (1973).
Este é, apenas, um pedaço da historia: os resultados mais recentes, integrando resultados clássicos, encontram-se nos textos citados no fim da
secçâo anterior.
Na exposiçâo que vai seguir-se apenas vamos referir os aspectos uni e
bivariados da Estatística de Extremos, deixando de lado os aspectos multivariados (dimensâo> 2) e as sequências e processos estocásticos, embora
os primeiros sejam tratados de passagem ao referir extensoes dos resultados
limites no caso i.i.d. Neste excurso histórico foi também dada bibHografia
básica para os extremos multivariados e os processos estocásticos de extremos.
3.
O comportamento assintótico iinivariado.
Passada a historia vamos abordar o nosso problema.
Consideremos una sucessao de variáveis aleatorias (JTi,X2,...,Xn,...}
i.i.d., com a funçâo de distribuiçâo F(x). Vamos obter, de inicio, a funçâo
de distribuiçâo do máximo dos X/ e do mínimo dos JQ. Sao evidentemente
Prob{max(Xi,..., X„) < x} = Prob{Xi < x , . . . , X„ < x} = W'ipc)
e
Prob{min(Xi,..., X„) ^ x} = 1 - (l -
F{x)^
dado serem i.i.d.* Há aqui uma certa simetría, ou duaHdade, entre as funçôes
de distribuiçâo F"(x) e 1 — íl - F{x) | . Esta simetría é uma simetría permanente entre máximos e de mínimos pois corresponde à relaçâo max(X/) =
— min(—X/). Por isso se trabalha sempre ou com distríbuicoes de máximos
ou com distríbuicoes de mínimos visto a "traduçâo" de um para o outro caso
ser imediata. A partir de agora trataremos de máximos quase sempre, a nao
ser quando o estudo dos mínimos se imponha, se introduza naturalmente ou
seja cómodo.
Uma primeira consequência das expressoes anteriores é facto de, designando wp e w^ os limites inferior e superior para o suporte da variável
aleatoria X, de funçâo de distribuiçâo F(x), se ter max(Xi,..., X„) —^ w^
e min(Xi,...,Xn) —* Wf, como se poderla esperar.
*Adiante iremos referir a distribuiçâo das estatísticas ordinais.
458
J. TIAGO DE OLIVEIRA
Mas pode ir-se mais longe formulando Leis de Grandes Números. Uma
sequência de variáveis aleatorias { F„} diz-se verificar a lei aditiva dos granp
des números se existe uma sucessao {a„} tal que F„ — a„ —^ O e a lei multiplicativa dos grandes números se existe una sucessao {bn\bn > 0} tal que
Yn/bn —* 1. Os resultados, devidos inicialmente a de Finetti (1932), tomam
agora a forma seguinte:
A sequência {max(Xi,..., JGi)}, em que os {Xi} sao variáveis aleatorias i.d.d. comfunçào de distribuiçâo F(x) (w^ = +oo ) verifica a lei aditiva
dos grandes números se e so se
j;_+oo
1 — F{y)
para todo o x > O e verifica a lei multiplicativa dos grandes números se e só
se
lim
^T-r— = o
y-^-\-oo 1 ~ F (y)
para todo o x > 1.
As leis dos grandes números exprimem que {max(^i,..., Xn)} sao próximos "em probabilidade" de a«, ou de bn, consoante o caso. É evidente que
as constantes {an} Q {bn} nao estao unívocamente definidas nem necessariamente relacionadas, para a mesma F.
Essencialmente o já longínquo trabalho de Dodd (1923), consta da obtençâo das distribuiçôes de extremos bem como de fórmulas aproximadas
para certes casos. Dado que, em geral, por ser dependente de parámetros,
F^{x) é difícil de manipular, a ideia básica é a de procurar coeficientes A„
e ôni> 0) de modo que {(max(Xi,... ,X„) — An)/on} convirja para uma
distribuiçâo nao-degenerada ou seja
Prob{(max(Xi,..., X„) - Àn)/Sn ^ x) = F'^iXn + ànx) ^ L(x)
em que L(x) é uma distribuiçâo nao-degenerada. Convém, desde já, chamar a atençâo para o facto de que as distribuiçôes continuas mais usuais
têm distribuiçôes assintóticas de extremos com coeficientes An e á„(> 0), ditos coeficientes de atracçào, convenientes mas nao unívocamente definidos;
já o mesmo nao sucede para as distribuiçôes discretas, como a de Poisson,
binomial inversa (ou de Pascal), etc.
Bascado no teorema da convergencia dos tipos de Khintchine mostra-se
que a distribuiçâo limite L{x) deve verificar a equaçâo funcional de estabilidade L^(x) = L(ak + Pk^)^ com ^^ > 0. A inversa é imediata. Foi a
estabilidade, que só Gnedenko (1943) veio mostrar, a intuiçâo notável de
trabalho de Fisher and Tippet (1928) permitindo encontrar de modo simples as distribuiçôes assintóticas ou limites de máximos.
Esta equaçâo funcional, por passagem sucessiva de k inteiro positivo a
fraccionario e a real (positivo), é ainda válida para k, com k real (positivo).
O seu estudo leva ao seguinte Teorema Limite Extremal:
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
459
As distribuiçôes assintóticas de máximos, L(x), no caso i.i.d., aparte
parámetros de localizaçào e dispersao, têm de ser de uma das tres formas
seguintes:
Wa(x)
=
exp(-(-x)^)
se x < O,
K{x)
^ai^)
=
—
=
=
1 se X ^ O, a > 0; distribuiçào de Weibull;
exp(—e~^)(—oo < X < +oo); distribuiçào de Gumbet,
O se X < O,
exp(--x~^) se X ^ O, a > 0; distribuiçào de Fréchet.
As respectivas densidades estâo representadas nos fig. 1, 2 e 3 respectivamente; a em ^aQV'oL na fig. 1) e em €>a(í^'a na fig. 3) é um parámetro de
forma. Por transformaçoes simples pode-se passar de uma a outra das tres
distribuiçôes.
Figura 2
J. TIAGO DE OLIVEIRA
460
Para o caso dos mínimos as distribuiçôes assintóticas sao da forma
1 - T a ( - x ) , 1 - A(-x) e 1 -<l)a(—x) tendo o nome correspondente (WeibuU,
Gumbel, Fréchet). Deve recordar-se que as distribuiçôes limites para máximos e para mínimos da mesma distribuiçâo F(x) nao estao em correspondencia; por exemplo, a distribuiçâo exponencial 1 — Wi(—x) = Wi(x) é tal
que W^'Qogn+x) ^ A(x) e 1 - íl - Wi(x/n)y = Wi(x) (é estável
para mínimos). Do ponto de vista estatístico as distribuiçôes A(x), ^oc(x),
1 - A(-x) e Wa(x) = 1 - ^oc(x) (introduzida por Weibull (1939)) parecem
ser as mais importantes.
Além da estabilidade, outra propriedade de notar é a de que, sendo as
distribuiçôes limites continuas, a convergencia de F^{Xn + en x) para L{x)
é uma convergencia uniforme. Estas duas propriedades sao bastante importantes pois legitimam o uso aproximado dos resultados assintóticos para
amostras finitas de máximos. De facto, pela convergencia uniforme, temos
sup \F\Xn +ànx)-
L{x)\ < 8 OU sup ¡F'^iy) -L((y-
An)/ôn )\ < s
para n > N(8) pelo que, para n grande, L [ (y — À)/ô ) é uma aproximaçâo
de F^iy), distribuiçâo em gérai desconhecida. No caso de se tratar aínda de
certos máximos (de que os máximos anuais, dos máximos diarios de débitos
de rios sao exemplo, sem independencia nem estacionaridade) a estabilidade
tem mostrado que a aproximaçâo é reforçada.
Quando F^(Xn ^^nx) -^ L(x) diz-se que F {pe) é atraída, para máximos,
por L{x) e que (A^,¿„) sao coeficientes de atracçâo (nao definidos univocamente).
Uma questâo teórica importante é a da obtençâo das condiçôes de atracçâo
e de um sistema de coeficientes de atracçâo. Sao validos os seguintes resultados (onde F~^(p) = inf (x : F(x) ^ p} denota a funçâo quantil ou inversa):
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
461
F(x) é atraída para í>a(x) se e só se w^ = +00 e
\-F{yx)
l-Fiy)
-^ x~%x > 0)
guando y —^ +00 ; podemos entao tomar X^ = O e on = F~^(l — l/n).
F(x) é atraída para ^ « W se e só se w^ < -foo e F*(x) = F(w^ — l/x)
é atraída por <I>a(^) ou seja se
1 _ Ffw^ - t)
1 ^ F{w^ - xt)
guando t [ 0; podemos entao tomar Xn ~ w^ e bn~ w^ — F ^(1 — 1/^).
F{pc) é atraída para A(x) se e só se
guando í | 0; podemos tomar
Xn = F-\\
^ \/ri)
e á„ = F-\\
- \/en) - F-\\
- l/n).
Assim se prova que a normal, a exponencial, a gama e a WeibuU de
mínimos sao atraidas para A(x), a Pareto é atraída para ^odx), a exponencial negativa e a uniforme sao atraídas por ^\{x) e que F (pe) = O, se
X < e, F{x) = 1 — 1/logx, se X > e, /zao é atraída por nenhuma das tres
distribuiçôes.
O teorema limite extremal, como se viu, permite aproximar F " (y) por
i (
^
) o ,ue, estatisticamente se faz usando a funçâo de distribuiçào
Uma questao que se pode levantar é a da eficacia da aproximaçâo o que,
imediatamente, tem dois sentidos:
a) de que modo L j ^—z—- j aproxima F^{y)l
b) de que modo o quantil —/? de L 1 —-—~ 1 iXn+àn Lr^{p)\ aproxima
o quantil -p de F'^iy) ( F - ^ O ^ / " ) ) ?
A questao b) nao parece ter sido, aínda, abordada estimando~se sempre
F~^(jr/^) por Xn +ônL~^(p); o uso da distancia linear
sup
0<p<\
\Xn+ônL-^(p)-F-^(p^/^)\
462
J. TIAGO DE OLIVEIRA
nao é o mais conveniente como se mostrou em Tiago de Oliveira (1990) e
o melhor parece ser introduzir uma funçâo de peso w(p) ^ O, medindo a
importancia dos erros lineares, e optimizar a aproximaçâo minimizando em
i^n^^n) o valor da distancia ponderada
sup
0<p<\
w(p)\A^+ôr^L-'(p)~F-^(p'/'')\.
A questâo a) tem sido abordada por varios autores que obtêm limites
superiores para a distancia em probabilidade \F'^(Àn +¿«-^) — L(x)\ e para
a distancia uniforme
sup
|F"(A„+¿«x)-L(x)|.
—oo < x < + o o
o melhor resultado parece dever-se a Davis (1982) que mostra:
se F"(Àn + ô„x) -^ L(x) entâo
|F«(A„ + anx) - L(x)\ ^ y/Iix) X e- ™nO«W-0)
(logL(x))'
com yn(x) = nil — F{Xn + ànx)\ + logL(x).
Em geral a convergencia é lenta e mostra-se directamente que \F^{Xn +
ènx) — L{x)\ é o{\/n) se e só se j«(x) = — (log L(x) j /2n + o(\/rí).
Curiosamente, para a distancia em probabilidade, se F^iXn +¿«^) ^
A(x) nem sempre A(x) é a melhor aproximaçâo mas sim €>a(^) ou Ta(x),
com OL — oLn -^ +00, como se pode ver em Galambos (1987): €>a„(x) e
¥a„(x) dizem-se entâo aproximaçôes;?re-a^^-rntó/Zca^ ou penúltimas,
Uma outra abordagem das aproximaçôes é o uso de transformaçôes para
acelerar a convergencia de que é exemplo clássico o facto de que se [Xn]
sao normáis reduzidas, embora a convergencia
Prob{max(Xi,..., Xn) < /l„ + ¿„x} - A(x) — O
seja lenta (da ordem de l/log«) o mesmo nao sucede para convergencia
Prob{max(Xf, .,,,Xl)^X'n+
à'nx] - A(x) — O
que é da ordem de \/n. Em Tiago de Oliveira (1990) mostramos que
I Prob{max(Xi,...,X) < A„-f¿„x}-A(jc)| - n|F(A„-f^„x)-A(x+log/2)| A(x)
e análogamente para ¥« e €>« o que permite estudar a aceleraçâo da convergencia.
Ao afrouxarmos a condiçâo de independencia, exigindo todavia, ainda, a
estacionaridade do processo (margens idénticamente distribuidas), verificase que para que o comportamento assintótico seja o mesmo, isto é, para que
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
463
a distribuiçâo de máximos, com coeficientes de atracçâo convenientes Xn e
bn, convirja para uma das formas L(x), o coeficiente de correlaçâo p{\i —j\)
das variáveis Xi e Xj, deve convergir para zero com uma certa velocidade.
Se convergir demasiado lentamente para zero (ou nao convergir) já a distribuiçâo limite nao é necessariamente uma das tres L{pc) indicadas, podendo
ser uma outra qualquer. Intuitivamente, portanto, os resultados limites só
se mantêm se houver independencia assintótica.
Um exemplo extremamente simples foi estudado por Berman (1962).
Consideremos um processo estocástico gaussiano {Xn), de margens reduzidas, em que p(0) =: 1 e p(|í — 7I) = p > O se / ^ 7 . É evidentemente
um processo estacionario, mas em que a correlaçâo nao tende para zero
à medida que / ey se afastam. Prova-se que {Xn) satisfaz esta definiçâo
se e só se existem variáveis aleatorias normáis reduzidas e independentes
Yç^,Y\,.., ,Yny^" y e Xi — y p 7o + A/1 - p 7/. Demonstra-se entâo que o
comportamento assintótico de
max(Jri,..., JSGz) - /l„ = y p Fo + \ / l - P max(Fi,..., F^) - A„
para Xn — -s/l — p • V2logn é justamente o de ypFo e é portanto assintoticamente normal, visto max(Fi,..., F„) - y/2\ogn —* 0. Embora este
exemplo possa parecer estranho (ou elaborado) é bastante comum: é usual
chamar-lhe, em linguagem estatística, o "family process". Se se pensar numa característica (peso, altura, etc., a certa idade) dos sucessivos filhos, do
mesmo sexo, duma familia é evidente que a correlaçâo entre os valores correspondentes de dois filhos deve ser constantemente a mesma e positiva, 0
que corresponde ao modelo do "family process". O "contra-exemplo" mostra
que a libertaçâo da condiçâo de independencia nâo pode ser demasiado forte;
0 mesmo sucede para a libertaçâo da condiçâo de identidade das margens.
. Dentre as distribuiçôes assintóticas de máximos, A(x) é a que poderemos considerar distribuiçâo central, sendo em grande parte 0 "pivot" da
Estatística de Extremos. Do ponto de vista analítico é uma funçâo de distribuiçâo indefinidamente derivável em todo o seu dominio de existencia e
que, além disso, tem todos os momentos, situaçôes que nâo sucedem sempre
para as distribuiçôes Ta(x) e 3>a(-^). Comparemos as fig. 3 e 1. O gráfico
da densidade da distribuiçâo de Fréchet (fig. 3), mostra que as pontas direitas (abas) da distribuiçâo sao "demasiado elevadas" e portanto nâo haverá
naturalmente momentos a partir de certa ordem (por divergencia dos integráis nâo há momentos de ordem A: > a) o que arrasta dificuldades com o
uso do método dos momentos em Decisâo Estatística. Ao contrario, a distribuiçâo de Weibull (fig. 1) só é regular, no sentido de Cramer, quando a > 2.
Todavía em muitas aplicaçôes intéressa o caso a ^ 2. Note-se aínda que se
1 < a < 2 a densidade no ponto zero, é finita, divergindo para -foo se a < 1.
E útil observar, e terá importancia adiante na decisâo estatística, que
para valores de a grandes, $a W e Wa(-^)? aparte uma operaçâo de reduçâo,
nâo se distinguem praticamente de A(x) o que ja aparece por detrás de uso
das distribuiçôes pré-assintóticas.
464
J. TIAGO DE OLiVEIRA
Finalmente, um último ponto. Com algumas dificultades formais, Gumbel (1935) encontrón o comportamento assintótico dos m-ésimos extremos.
A sua definiçâo é simples: se {JSfi,..., X«} for a amostra e
X'i ^ Jf'2 ^ X'3 ^ . . . < X'n-l
^ X'n
2L amostra ordenada, X'n-1 é o 2^ máximo, X'3 o 3^ mínimo, etc. A funçâo
de distribuiçâo da k^ estatística ordinal, se a distribuiçâo dos Xi i.i.d. é
F(x), é dada por
Prob{X'^ < x} = Prob{yt ou mais obs. < x} = ¿
[ ^ jF^"(jc) (l-F(x))''~'^;
o m^ máximo, como é a (n + 1 — my estatística ordinal x'n+i-m,
funçâo de distribuiçâo
tem a
e portando se F (pe) tem distribuiçâo assintotica dos máximos reduzida L(x),
o m^ máximo tem a distribuiçâo assintotica reduzida
Os resultados de Gumbel (1935), com modificaçôes de forma, podem ser
encontrados en Smirnov (1949) e Tiago de Oliveira (1977).
Uma exposiçâo actual das aplicaçôes dos aspectos probabilísticos dos
extremos univariados encontra-se em Castillo (1988).
4.
Decisao estatística para
e x t r e m o s univariados.
Vamos começar por considerar a distribuiçâo de Gumbel, distribuiçâo
central. O gráfico da sua densidade, dado na fig. 2, tem as pontas a convergirem rápidamente para zero, pelo que, como disse, os momentos existem.
Os problemas estatísticos, no caso desta distribuiçâo, sao os ligados aos dois
parámetros desconhecidos A e ¿, de localizaçâo e dispersâo.
A estimaçâo dos parámetros Á e ô pode ser abordada pelo método da
máxima verosimilhança. Leva ao par de equaçôes
À = -ô log
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
465
A segunda equaçâo define claramente 1 em funçâo dos Xi Q ó.
A primeira equaçâo do par dá ¿ e pode ser resolvida numéricamente por
aplicaçâo do método de Newton-Raphson, método de 2^ ordem, que tem
dado convergencia numérica (em computador) em 3 a 4 passos e em pouco
tempo.
O par aleatorio (1, ¿) é assintoticamente binormal de valores medios
(A, ¿), de variâncias
(^l+6(l-y)V7i^)¿V'^, 60^/n^n^
e de coeficiente de correlaçâo
p= (l+71^6(1-?)^)"^^^ =.0.313.
Evidentemente as probabilidades de excedencia, os quantis e os preditores
sao obtidos substituindo (À,ô) por (1, á) e sao assintoticamente normáis
também.
Para iniciar a soluçâo da equaçâo sobre ô convem dispor de um estimador inicial. Pode ser obtido pelo método dos momentos (s^ = 7i^/6 • ÔQ), de
eficiencia 48% ou vir da técnica de Lieblein-Zellen (1956) que vamos descrever. As n observaçôes desordenadas sao divididas em blocos de 6 observaçôes
obtendo-se portanto, n/6 subamostras, com desprezo de 5 observaçôes no
máximo; em cada uma das n/6 subamostras ordenam-se as 6 observaçôes
{x'\
< X'2 < ^'3 ^ -^'4 < ^'5 < -^'ó).
Para cada subamostra, agora ordenada, calculam~se duas (convenientes)
combinaçôes lineares A* e (5* para estimar Xt b por subamostra e finalmente obtém-se a média ñas fz/6 subamostras dos Â* e (5* obtidos. Embora as
estimativas (A*, ¿*) dependam da partiçâo da amostra de grandeza n em n/6
subamostras tem-se verificado que as estimativas nao variam grandemente,
desde que nao se ordene a amostra; um método de o realizar é a partiçâo de
amostra sequenciadamente ñas subamostras ( x i , . . . , X6), (xy,..,, xu), etc.
Deve dizer~se que a eficiencia deste método de iniciar a estimaçâo, para fazer
a estimaçâo de quantis, apresentado em Tiago de Oliveira (1972, 1975, 1982)
é superior a .77 para x > —.98 ou seja p > .07. Veja-se também Gumbel
(1962).
Como a distribuiçâo assintótica de (1, ó), é uma distribuiçâo binormal
com as variâncias e correlaçâo dadas atrás, podemos, a partir délas obter
testes de hipóteses e, portanto, intervalos de confiança; o mesmo sucederá
para <I>a(^) e Ta(x). Para mais detalhes veja-se Tiago de Oliveira (1975,
1978).
Tratemos, agora, em linhas gérais a prediçâo, um problema central em
Estatística para que aponta a ideia da estimaçâo dos quantis. Conhecida a
amostra {Xi,...,X^} pretendemos para uma (segunda) amostra perspectiva (ainda nao observada) {X^+i,... ,X^+^}, nao necessariamente da mesma grandeza, estimar pontual ou regionalmente urna determinada funçâo
466
J. TIAGO DE OLIVEIRA
W(Xn+i,..., Xn+rn)' Essc problema foi abordado em Tiago de Oliveira (1966,
1968) e Tiago de Oliveira e Littauer (1976) desde que a funçâo T seja uma
funçâo quase-linear, isto é, tal que
OU seja com invariância linear positiva. O preditor é assintoticamente equivalente ao quantil de probabilidades exp(—e~^/m) e toma a forma À +
(y + log m • ô) que é, como combinacâo linear de um par assintoticamente
binomial, assintoticamente normal e tem eficiencia 1 por ser também um
estimador de máxima verosimilhança.
Analisemos agora, já em menor detalhe, alguns problemas de decisao
estatística para as distribuiçôes de Fréchet e Weibull.
Para a distribuiçâo <Da((-^ — ^)/à) mostrou-se em Tiago de Oliveira
(1972) que o terno de estimadores (A, ó, a) é assintoticamente trinormal com
as propriedades habituais de regularidade e com variâncias e covariancias da
ordem de l/n. Se porventura À = IQ è conhecido entao Y = log(X— ÀQ)
tem uma distribuiçâo de Gumbel com parámetro de localizaçâo A' = log ¿ e
de dispersao ¿' = 1/a e a teoría anterior pode ser aplicada.
Para a distribuiçâo de Weibull a situaçâo tem mais variedade do que
anteríormente. Por comodidade, dada a sua importancia em Engenharia,
vamos referir-nos à distribuiçâo de Weibull de mínimos
Woe ((X - A)/ô ) = l-'¥oc (-(X - X)/ô ).
Se X = Ao é conhecido, 7 = — log(X — ÀQ) tem uma distribuiçâo de
Gumbel para máximos com parámetro de localizaçâo A' = — log¿ e ¿' = 1/a
e a teoría anterior pode, de novo, ser aplicada.
Porém se (A, ó, a) nao sao conhecidos a decisao estatistica é mais complexa. Quando a > 2 pode ser assumido, há plena regularidade de Cramer,
o estimador de máxima verosimilhança (1, è, a) converge e tem um comportamento assintoticamente trinormal de variáncias e covariancias da ordem
de \/n. Mas se a ^ 2 a situaçâo é diferente.
Para dar um exemplo importante, quando temos a = 1 (distribuiçâo exponencial) os estimadores de máxima verosimilhança sao X = min(Xi,..., Xn)
Q à — X — X. Mas estatística X — min(Xi,..., Xn) nao tem um comportamento assintótico normal pois a sua distribuiçâo é Wi In —-— j . Consequentemente o comportamento assintótico do par (X,ô) nao é binormal
o que é natural por estarmos fora da teoría da regularidade de Cramer;
mais aínda, enquanto a variáncia de X é da ordem de l/n, a variáncia
de min(Xi,... ,X„) é da ordem de w~^ e portanto tende para zero muí to
mais rápidamente. Todavía se O < a < 1, os trabalhos de Mann (1972)
mostram que podemos tomar como estimadores de máxima verosimilhança
X — mín(Xi,..., Xn) (> A) e qualquer funçâo positiva como <5!. A situaçâo é
completamente anómala e nao está estudada em todas as suas consequências.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
467
Nao temos pois estimador de máxima verosimilhança de ¿; a teoría de máxima verosimilhança tem limitaçôes, nao podendo ser universalmente aplicada
sem adaptaçôes.
Até agora temos vindo a tratar de decisao estatística respeitante a extremos assumindo a validade de um dos modelos (Weibull, Gumbel ou Fréchet).
Mas essa escolha, assumindo um modelo, é bascada ou em pressupostos físicos ou resultados limites (em gérai teóricos) ou em experiencia adquirida.
Quando tal nao sucede há que iniciar o estudo dos dados escolhendo convenientemente o modelo pois, como atrás se disse, o comportamento estatístico
pode ser bastante diferente.
Uma primeira observaçâo, importante, é a de que as tres distribuiçôes podem ser integradas numa forma global, dita forma de von Mises-Jenkinson*,
i r / . , (x-xw r^/^
. . ( ^ A\
)..pU
(,..(^))I
para A : < 0 , A : = O e A : > 0 temos as distribuiçôes de Weibull, de Gumbel
e de Fréchet com parametrizaçôes diferentes de localizaçâo e dispersao e
a =: \/\k\ se A: ^ O e tendo por limite quando A: —* O (por valores positivos
ou negativos) a distribuiçâo de Gumbel, o que explica ter-se dado a esta
última uma posiçâo central.
É fácil mostrar que, no caso reduzido (observaçôes Z/), a estatística
y,.(Z)
= £(|_z..-f.-)
é a estatística óptima para testar a distribuiçâo de Gumbel {k = 0) contra a
de Fréchet (A: > 0) e a de Gumbel contra a de Weibull {k < 0) (obtendo-se
pois testes LMP) assim como é assintoticamente óptima para testar k —Q
contra k :/=iO. Esta estatística pode mostrar-se ser assintoticamente normal
quando ~l < k < 1/4. Ver Tiago de Oliveira (1981) para mais detalhes.
Pode entâo formular-se o seguinte trilema estatítico: dado o nivel de significancia a procuram-se quantidades b^ < O < an e decide-se a favor das
distribuiçôes de Weibull, de Gumbel ou de Fréchet consoante
Vn(Z) < bn, bn ^ Vn(Z) ^ an OU a „ < F«(Z).
Os valores de a„ e bn determinam-se impondo que
Prob{è« < VniZ^ < an\k = 0} = 1 - a e
dFToh{bn < Vn(Z) < an\k}
=: max.
dk
^=0
No caso real, em que as variáveis nao sao reduzidas, calcula-se (X,è),
estimadores de (A, á) para a distribuiçâo de Gumbel, e substitue-se Z/ pelos
*0 símbolo XJ^ representa max(x, 0).
468
J. TIAGO DE OLIVEIRA
valores reduzidos estimados Z/ = — \ — . Pode mostrar-se que F„(X) =
0
Vn{Z) é também assintoticamente normal se —1 < A: < 1/4 mas com variância inferior em 14%.
Uma outra estatistica, quase com a mesma potencia na vizinhança de
zero e de cálculo mais simples, é a estatistica independente da localizaçâo e
dispersâo,
max(Xi) — med(X/)
vñQá{Xi) — xmn{Xi)
em que max, med e min significam respectivamente o máximo, a mediana e o
minimo da amostra. Esta estatistica devida a Gumbel após reduzida, tem assinto ticamente a distribuiçâo A(z) se Â: =0,, tendo distribuiçôes assinto ticas
diferentes consoante Â: < O ou A: > 0. Outras estatisticas existem ainda. Para
mais detalhes podem ver-se artigos em Tiago de Oliveira éd. (1984) e Tiago
de Oliveira (1986).
Até agora, ao tratar da Estatistica de Extremos, trabalhávamos no pressuposto (implícito) de que os n máximos observados eram obtidos, cada um
deles, como máximos de N observaçôes independentes com funçâo de distribuiçâo (inicial) F{x), Como F^{XN + à^x) ^ L{x), supunhamos que os
n máximos tinham a distribuiçâo (exacta ou aproximada) LUX — À)/Ô J e a
decisâo estatistica, adequada ao problema, seguia-se. Em resumo, a amostra
de máximos era obtida a partir de observaçôes com a mesma distribuiçâo
e amostras (iniciáis) de igual grandeza. Porém há situaçôes concretas em
que tal nao sucede como é o caso dos (grandes) incendios. Os maiores 10
incendios por ano (de bosques, de edificios, etc.), correspondem a amostras de dimensâo (anual) diferente: casos concretos podem encontrar-se em
Ramachandran (1974). A questâo básica será o modo como se deverâo relacionar os parámetros (Àm^àm) ^ i^m'^^m') para amostras da mesma distribuiçâo inicial F(x) mas dimensâo diferente de modo a interrelacionar as
aproximaçoes
isto é, como fazer o "pooling"
das amostras. O assunto começou a ser estudado recentemente, pelo autor
citado que abordou o problema usando os métodos heurísticos de Gumbel
(1935). Em Tiago de Oliveira (1977, 1977') encontra-se uma abordagem que
mostra o seguinte: em condiçôes bastante gérais, quando se passa de uma
amostra de F{x) com grandeza m para outra de m' observaçôes, se a distribuiçâo assintótica for uma distribuiçâo de Gumbel, as relaçôes entre os
parámetros sao
AfYi' = ^m
\ ^m 'Og
7 ^ ^m' — ^m •
m
Tomando a grandeza de uma das amostras como padrâo os parámetros (A, ¿)
de todas as outras exprimem-se nos parámetros da amostra padrâo pela forma indicada passando a haver apenas 2 parámetros. Processa-se depois a
estimaçâo por máxima verosimilhança.
Análogamente se passa com T^ e €>a.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
469
No que diz respeito à decisâo estatistica para extremos univariados estao muitos problemas em aberto, embora se já tenham resolvido alguns dos
mais importantes -estimaçâo/teste de hipóteses e prediçâo com pequeñas
contribuiçôes para a discriminaçâo, intervalos de tolerancia, análise sequencial, comparaçâo entre o método dos máximos anuais (blocos) e o método
P.O.T., etc.
Nao só intéressa completar os estudos mais avançados e alargar os apenas iniciados como abordar a análise multiamostras (análoga à análise de
variância normal), a decisâo bayesiana, os efeitos dé modelizaçâo errada, a
procura de decisâo robusta, etc.
5.
Os extremos bivariados.
Consideremos a amostra {(Xi,Yi),... ,(^n,Yn)} de pares aleatorios
(Xi, Y¿) independentes e de funçâo de distribuiçâo F(x,y).
A funçâo de distribuiçâo do par ímax(Xi,..., X„), max(Fi,..., F„) j é,
evidentemente,
Prob{max(Xi,..., X^) ^ x, max(7i,..., 7«) ^ j } =
Prob{Xi ^x,
Yi^y;...;
Xn^x,
Yn<y}=
F'^ix.y).
O par aleatorio lmax{Xi,,.., X^), max(7i,..., F„) j é ponto virtual,
com uma probabilidade dependente de F{x,y) de ser observado, já que os
índices em que os máximos de cada uma das margens sâo atingidos nao coincidem em geral, embora haja uma associaçâo positiva como se verá adiante.
Em Tiago de Oliveira (1962/63, 1975, 1975') mostramos que se as margens F(x, -foo ) e F(+oo ,y) sâo atraídas para a distribuiçâo de Gumbel com
os coeficientes (In/àn) e (A'„,á'„) respectivamente {dn,à'n > 0), ou equivalentes pelo Teorema de Khintchine, entâo a distribuiçâo limite de
é da forma
A(x,j) = exp{-(^-^ +e-y)k{y - x)} = [A(x) A(y)f ^-^>
em que k{w) dita funçâo de dependencia^ satisfaz as condiçôes seguintes:
a) A:(--oo) zzA:(-}^) = 1;
b) (1+e^)Â:(w) é nâo-decrescente;
c) (1 +e~^)A:(M;) é nâo-crescente;
d) (e-í + e-'?) k{r\ - O + ie-^ + e~y) k(y - x) ^
^ (e~^ +e-y)k(y-0+ie~''
+e-'^)kiri--x)sex^
^, y ^rj.
470
J. TIAGO DE OLIVEIRA
Duas condiçôes mais simples, substituindo b) e c), em face de a) e d),
sao
0^
lim e'^kXw),-
lim e-'^kXw) ^ I.
H?—•-{-oo
w—•—00
5^A(x, v)
No caso de haver densidade —r—^^^—, ou seja de k(w) ter derivada
dxdy
segunda, as condiçôes ácima tomam a forma mais simples
a) ki-oo) =A:(-hoo) = 1;
b)
[(l+en(k(w)Y^O;
c) [i\+e-nk(w)Y
^0;
d) (1 +^-^)^"(vt^) +(1 - e-'')kXw) ^ 0.
Mostra-se, ainda, a partir da desigualdade de Boole-Fréchet
max(0,F(x, -f<x) ) +F(i<x>,;;) _ 1 j ^ F(x,y) ^ min(F,x, -^ ), F ( ^ ^ , j )
e avando o estabilidade que
/I
max(l,0
\ msLK
^ k(w) ^ 1,
em que k(w) = 1 corresponde à independencia e
k(w) =
max(l,0
1 +€""
representa o caso diagonal (dependencia completa) em que, sob forma reduzida na distribuiçâo limite, se tem Prob{X = Y} = I.
Pode-se mostrar o resultado de Sibuya (1960) de que se P(...) for dada
por
Prob{Jr > X, Y > y} =P (F(X, -H^ ), F(+oo , j ) )
entâo há independencia assintótica se e so se P(l — 5,1 — s)/s —^ 0 quando
^ __ 0 e temos assinto ticamente o caso diagonal se e so se P(l —s, 1 —s)/s —^ 1
quando s —*0; uma forma simples dévida a Geflfroy (1958/59), apenas condiçâo suficiente de independencia assintótica das margens, é
1 - Fjw^.y) ~ F(x,w^)
\~F{x,y)
+Fix,y)
-*0
quando
X t w^, y t Wy,
sendo w^ e Wy
os limites superiores dos suportes das margens.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
471
A relaçâo F(x,y) ^ F(x,-foo) • F(-+oo ,y) mostra associaçâo positiva
(grandes valores de X e 7 associados bem como pequeños valores de X e F
associados entre si).
Pode-se, a partir dos resultados anteriores, obter as relaçôes entre k(w)
e Prob{7 - X ^} = D(wX dadas por
T ^
X
D{t)dt
V— no
^
K^)^
r~^
1 +^^
T^^ X
k\w)
1
e /)(w)
^ ' = v7-T
k{w) + 1 +e-
com
/:
D{t) dt-w-^0
se w — 4<^
e DXw) ^ D(w) (1 - Diw)).
Obtêm-se entao as seguintes expressoes para os coeficientes de correlaçâo, todos nao-negativos, como era de esperar da dependencia positiva:
coeficiente de correlaçâo de Pearson:
6 r+°°
p=— I
3 r+°° 9
logk(w)dw = 1
7y I
w^dD(w);
coeficiente de correlaçâo de Kendall:
X ^ \ - ¡ ^ D{w){\ - D{wy)dw\
coeficiente de correlaçâo de grau:
C'
dw — 3.
(l+e^Hl+kiw))^
Qualquer dos coeficientes de correlaçâo é nulo se e so se há independencia
e vale 1 se eróse há dependencia completa.
Uma outra abordagem equivalente é a procura das distribuiçôes assintóticas de pares de mínimos bivariados quando as margens sao exponenciais
reduzidas. Se for S(x, y) = Prob{X > x, F > j } a funçâo de sobrevivencia,
a funçâo de sobrevivencia dos mínimos de uma amostra i.i.d. é, análogamente,
S'^ix.y)
e se as distribuiçôes margináis forem atraídas pela distribuiçâo exponencial
(de funçâo de sobrevivencia E(x) = exp(-X4.)) entao S'^ix^y), convenientemente reduzida, tem como funçâo de sobrevivencia limite
S(x,y)=cxp^-(x+y)A\^-^^Y
x,y^O
em que a, funçâo da dependencia A{u) (O ^ t/ ^ 1) satisfaz as condiçoes
seguintes, equivalentes ás anteriores para k{w),
472
J. TIAGO DE OLIVEIRA
a)
A(l)=A(0)^l;
b) A{ú)/u nao-crescente;
c) A{ú)/{\ — Ú) nâo-decrescente;
d) A{u) convexa {A'\ü) ^ O no caso de haver densidade de probabilidade).
As condiçôes b) e c), em face de a) e d), podem ser substituidas pelas
condiçôes mais simples 0 ^ —A\ÇÎ), A\\) ^ 1.
Notando por B{u) a
•"""{FTT*"}
temos
A(u)
com a relaçâo inversa
Pela transformaçâo (X, 7) —^ (e~^,e~^) passa-se das margens de máximos de Gumbel reduzidas a margens de mínimos exponenciais reduzidas;
é imediato que a correspondencia entre as funçôes da dependencia é dada
por
*(»')='^(ríb^) = ^(«)=*(iogi^).
Os coeficientes de correlaçâo nâo-paramétricos têm expressôes equivalentes; dado que
obtemos
•>B(u)(l-B(u)),..
.
.,
„ r<
du
il+A(u))
2
Sendo o coeficiente de correlaçâo de Pearson dependente da distribuiçâo
temos
du— l.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
473
Dado que para as distribuiçôes limites A(x, y) nem sempre há densidade
-e tais casos têm muita importancia prática- convém fixar ainda os seguintes
resultados, demonstrados em Tiago de Oliveira (1978/79).
A expressao da regressao curvilínea de 7 em X pode tomar a forma:
+00
/
[G(y\x)-A(y)]dy
_ftr^
em que
G(y\x) = {k(y - x)+(l +e-y+'')k'(y - x)} exp{^-^ - (^"^
+e-y)k(y-x)}
representa a funçâo de distribuiçâo de F, condicional em X = x, para
A(x,y). A razao de correlaçâo de F em X tem a expressao
o
V(v(X))
6
o
n
A eficiencia da regressao linear Lr(x) com respeito à regressao y(x) é
dada, entao, por
eiï(LY\y) =
YZTpi
•
Análogamente se poderla tratar a regressao linear e curvilínea para o caso
dos mínimos com margens exponenciais, de funçâo de sobrevivencia S(x,y).
A expressao de correlaçâo já foi dada e a de regressao é dada, directamente,
por
y(x)= í
S(y\x)dy
onde
A razao de correlaçâo tem análogamente o valor R^(Y/X) = p^(y{X), X)
e a eficiencia de regressao linear LY(X) com respeito à regressao curvilínea
tem a mesma expressao.
A troca de k{w) por k(—w) troca as posiçôes de X e F e, portante, as
expressoes de x(F) e R^(X/Y) obtém-se substituindo entre si X e F e k{w)
por k(—w), para o caso de A(x,y).
Análogamente a troca de A(u) por A(l-u) troca X e F e portanto x(F)
e R^(X/Y) obtem-se tendo em conta estas trocas.
Há permutabilidade, como é obvio, se k(w) — k{—w) ou A{ú) = A{\ — ü).
Do ponto de vista das aplicaçôes, o estudo de pares de máximos pode ser
por transformaçâo em margens de Gumbel reduzidas, aproximado por uma
distribuiçâo da forma A | ( x - A)/¿, {y - A')/<5'} tanto mais que os resultados
474
J. TIAGO DE OLIVEIRA
quando se aliviam as restriçoes impostas (de independencia e idéntica distribuiçâo) se estendem ao caso bivariado. O mesmo sucede quando se estudam
pares de mínimos que, por transformaçâo em margens exponenciais reduzidas, podem ser aproximados por uma funçâo de sobrevivencia da forma, em
geral, S{x/ô^y/à').
Com estes elementos podem estudar-se os problemas estatísticos paramétricos relativos aos modelos diferenciáveis (com densidade) e nâo-diferenciáveis (sem densidade) modelos que podem ser fixados pela indicaçâo da
sua funçâo da dependencia, parametrizada finitamente.
Para os resultados essenciais, que nao vamos detalhar, fazemos referencia
a sínteses sucessivas dos resultados conhecidos Tiago de Oliveira (1975',
1978/79, 1987), a Tiago de Oliveira (1989), e o estudo recente Tiago de
Oliveira (1989") e as referencias neles contidas. No primeiro dos trabalhos
sao referidas as propiedades conhecidas relativas aos modelos diferenciáveis
logístico e misto e aos nao-diferenciáveis de Gumbel, biextremal, natural,
natural generalizado e no último um modelo especial, aplicável a chelas de
rios.
Os resultados mais ampios sobre separaçâo de modelos estâo contidos
em Tiago de Oliveira (1989). E este é um problema bastante complexo pois
para amostras moderadas é difícil efectuar a separaçâo, seja usando a regressao, seja usando métodos directos. Usando a regressâo, nos casos estudados,
verificou-se que o coeficiente de nâo-linearidade
1 — p^
é inferior a .07 no modelo de Gumbel e a 0.007 no biextremal; veja-se Tiago
de Oliveira (1974) para mais detalhes.
No método directo, para os modelos logístico e misto, usam-se as estatísticas VL e VM do teste LMP de independencia das margens ( 0 = 0 v^-)
0 > O embora o 0 > O tenha significado diferente nos dois modelos e consoante VL ^ a, VM ^ b, OU \ < VL/CL ^ VM/b ou 1 < VM/b < VL/CI
decide-se a independencia, escolhe-se o modelo misto ou modelo logístico,
respectivamente; a Qb podem ser calculados assintoticamente impondo
Prob{decidir independência|independéncia} = 1 — a
Prob{decidir modelo logístico|independencia} = a/2
Prob{decidir modelo mixtojindependencia} = a/2
Convem sublinhar que nem VL nem VM tém o comportamento habitual
das somas que surgem naturalmente nos testes LMP quando a amostra é
de pares independentes e idénticamente distribuidos; de facto VL/^n\ogn
e VM/'S/^ log n sao assintoticamente normáis de valor medio nulo no caso da
independencia das margens.
Dadas estas dificuldades, e a existencia de imensos problemas em aberto,
excepto alguns de estimaçâo e teste e de regressâo, e o facto de nao haver.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
475
ainda, muitos modelos bastante ensaiados, vamos tratar da estimaçâo intrinsica.
Os modelos conhecidos podem nao ser uma aproximaçâo suficientemente
clara da amostra dado que a variabilidade das funçoes da dependencia k{w)
para pares de máximos com margens de Gumbel reduzidas
max(l,0
,^ ^
, ^ — - ^ k(w) ^ 1,
e A(u) para pares de mínimos com margens exponenciais reduzidas
(max(w, 1 — w) ^ A(ü) ^ 1 ) , sendo pequeña, nao permite uma separaçâo
fácil entre dois modelos, em geral bastante próximos. Por isso uma outra
abordagem é a estimaçâo da funçâo da dependencia através de uma funçâo,
dependente das observaçôes, que seja também uma funçâo da dependencia. A
esta abordagem chamamos estimaçâo intrinsica da funçâo de dependencia,
também chamada, por vezes, estimaçâo nâo-paramétrica. A questâo, já levantada nos nossos trabalhos Tiago de Oliveira (1975', 1984'), foi resolvida
assintoticamente por Pickands (1981) para a funçâo A{ú) através de uma
técnica de convexizaçâo, e também por Tiago de Ohveira (1989') complementado por Deheuvels e Tiago de Oliveira (1989) havendo porém agora
uma soluçâo mais simples e manejável Tiago de Oliveira (1991). E essa soluçâo mais simples que vamos passar a expor.
Consideremos a amostra
de pares aleatorios independentes, com margens exponenciais reduzidas e de
funçâo de sobrevivencia
Six.y) = exp | - ( x +y)A ( _ ^ ) | ( x , j ^ 0)
com ^(0) = A{\) = 1, O < —A'iQ), A\\)
sabe.
Pode entâo provar-se que
^ 1' e A{ú) convexa, como se
converge em média quadrática para A(u) se nan(}og(Xnf' —* O e
c{oLn) ( - log an) -^ 1 quaudo n —^ oo ; note-se que Aniu) tem valor medio
e variáncia, bem como todos os momentos pois_ J„(w) élimitada. Todavía
a funçâo An(u) embora verifique as condiçôes Àn(0) = An(l) = 1 e An(u)
convexa nao verifica necessariamente O ^ -A'n(0), A'ni^) ^ 1 pelo que nao
é uma funçâo da dependencia e portan to, embora estimando A(u), nao a estima de modo intrínsico. Todavía se tomarmos A*^(u) = max(w, 1 — u, An(u))
476
J. TIAGO DE OLIVEIRA
P
r
vemos que A*^(u) -^ A(u) e, como verifica todas as condiçoes exigidas, e um
estimador intrínsico de A(ü). Evidentemente
é estimador intrínsico de k(w).
Em face da condiçâo necessária e suficiente para que Aniu) ^ A(u) dada
atrás, uma soluçâo simples é a de tomar OLn~\lnt c{an) = (1 +logn)"^
Tem-se, entao,
Aniu) — 1 — -—;
y , mm I
—-,
— I
"^ ^
1+logn^
\\+nXi'
l+nYiJ
com a correspondente expressao para
A:„(w) = An (
1
I
e para A*^{ü) e fc^(w).
Deve notar-se que qualquer dos estimadores intrínsicos indicados (o de
Pickands e os dois de Tiago de Oliveira) têm um funçâo da dependencia que
nao é duplamente derivável e portanto
S*„iü) = exp | - ( x +y)A*„ ( ^
) } (x,y > 0)
e A*„ix, y) = exp{-(e-- + e'y) k*„(y - x)}
nao têm densidade planar.
Um problema em aberto é o de estimar A(u) (ou k(w)) de modo que baja densidade planar, ou seja que a funçâo da dependencia seja duplamente
derivável: do ponto de vista prático isso significarla uma aproximaçâo mais
manejável, dadas as suas propriedades analíticas.
6.
O caso inultivariado.
Os raciocinios anteriormente feitos podem ser aplicados ao caso multivariado. Se for (Xi,..., Xk) uma variável aleatoria de dimensâo k, estável ou
limite para os máximos, a sua funçâo de distribuiçâo satisfaz as condiçoes
Supondo agora as variáveis margináis de Gumbel reduzidas (se o nâo
forem faz-se a trasformaçâo conveniente) temos a relaçâo
A(xi + log n , . . . , xyt + logrif - A(xi,. ..,Xk)
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
477
pelo que, A satisfaz à relaçâo
A(xi +logw,...,Xk+
log w)"^ = A(xi,..., Xk), w ^ O
A(xi,..., Xk) tem entao a forma
A(xi,. .,sXk)= exp{-[(e-''^ + . • • + e-''^)]k(x2 -xu...,Xk-
xi)}
devendo a funçâo k verificar as condiçôes resultantes de ser
A^A(xu.,.,Xk)^0.
F(xi,..., Xn) verifica também desigualdades análogas as de Boole-Fréchet
para o caso bivariado, se conhecem as margens bivariadas:
Yl A(X¿, Xj) j
< A(Xi, . . . , XA:)^
JjAijixi^xj)
^ min^ min A//(x/,x/),
í>7
IjlHxirA
da qual decorre o resultado importante de que a independencia das margens
bivariadas é equivalente à independencia mutua de todas as margens, o que
permite um teste de independencia.
Esta área só tem tido pequeños avances estando praticamente em aberto,
desde a modelizaçâo ao estudo estatístico.
REFERENCIAS
[1] B A R N D O R F F - N I E L S E N , O . (1963): On the limit behaviour of extreme order statistics,
Ann. Math. Statist., 34, 992-1002.
[2] B E R M A N , S . M . (1962): Equally correlated random variables, Sankhya, A, 24, 155-156.
[3] B E R M A N , S . M . (1962').* Limiting distribution of the maximum term in a sequence of
dependent random variables, Ann. Math. Statist., 33, 894—908.
[4] B E R M A N , S . M . (1964): Limit theorems for the maximum term m stationary sequences,
Ann. Math. Statist., 35, 502-516.
[5] C A R T W R I G H T , D . E . and LONGUET-HlGGINS, M . S. (1956): The statistical distribution of the maxima of a random function, Proc. Royal Soc. London, A, 237, 212-232
478
J. TIAGO DE OLIVEIRA
[6] C A S T I L L O , C . (1988): Estadística de valores extremos, distribuciones assintoticas, Estad.
Española, 29, 5-34.
[7] C R A M E R , H . (1962): On the maximum of a normal stationary stochastic process, Bull.
Amer. Math. Soc, 68, 512-516.
[8] C R A M E R , H . (1965): A limit theorem for the maximum values of certain stochastic
processes. Theory Probab. AppL, 10, 126-128.
[9] D A V I S , R I C H A R D A . (1982): The rate of convergence in distribution of the maxima,
Statistica Neerlandica, 36, 31-35.
[10] D E H E U V E L S , P . A N D T I A G O D E O L I V E I R A , J . (1989): On the non-parametric
estimation of bivariate extreme value distributions, Statist, and Prob. Letters, 8, 315-323.
[11] DODD, E . L. (1923): The greatest and least variate under general laws of error. Trans.
Amer. Math. Soc, 25, 525-539.
[12] DWASS, M . (1964): Extremal processes, Ann. Math. Statist., 35, 1718-1725.
[13] DWASS, M . (1966): Extremal processes, II, Illinois J. Math., 10, 381-391.
[14] FiNETTI, B . DE (1932): Sulla legge di probabiUtá degU estremi, Metron, 9, 127-138.
[15] F I S H E R , R . A . A N D T I P P E T , L . H . (1928): Limiting forms of the frequency distri-
bution of the largest or smallest member of a sample. Proc. Cambridge Philos. Soc, 24,
180-190.
[16] F R É C H E T , M . (1927): Sur la loi de probabiUté de l'écart maximum, Ann. Soc. Polon.
Math. (Çracovie), 6, 93-116.
[17] G A L A M B O S , J . (1978): The Asymptotic Theory of Extreme Order Statistics, Wiley
Publ.; 2^ ed. (1987), Krieger Publ. Cy.
[18] G E F F R O Y , J . (1958/59): Contribution a la théorie des valeurs extrêmes, Publ. Inst.
Statist. Univ. Paris, 7/8, 37-185.
[19] G N E D E N K O , B . V. (1943): Sur la distribution limite du terme maximum d'une série
aléatoire, Ann. Math., 44, 423-453.
[20] G N E D E N K O , B . V . AND KOLMOGOROFF, A . N . (1954): Limit distributions for
sums of independent random variables, Addison Wesley.
[21] GUMBEL, E . J . (1935): Les valeurs extrêmes des distributions statistiques, Ann. Inst.
H. Poincaré, 5, n5-l5S.
[22] GUMBEL, E . J . (1958): Statistics of Extremes, Columbia Univ. Press.
[23] GUMBEL, E. J . (1962): Statistical theory of extreme values (main results), in Contributions to Order Statistics, A. E. Saharan and B. G. Greenberg eds., Wiley Publ., 56-93
e 406-431.
[24] HÙSLER, J . AND R E I S S , R . D . , eds. (1989): Extreme Value Theory, Lect. Notes
Statist., Springer-Verlag.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
479
[25] J U N C O S A , M . L . (I949): On the distribution of the minimum of a sequence of mutually
independent random variables, Duke Math. J., 16, 609-618.
[26] L A M P E R T I , J. (1964): On extreme order statistics, Ann. Math. Statist., 35, 1726-1737.
[27] L E A D B E T T E R , M . R . (1974): On extreme values in stationary sequences, Z. Wahrsch.
verw. Geb., 28, 289-303.
[28] LEADBETTER, M . R., LINDGREN, GEORG AND ROOTZÈN, HOLGER (1983):
Extremes and Related Properties of Random Sequences and Processes^ Springer-Verlag.
[29] LlEBLEIN, J . AND Z E L L E N , M . (1956): Statistical investigations of the fatigue Hfe of
deep-grove ball bearings, / . Res. Natl. Bur. Standards, 57, 273-316.
[30] LOYNES, R. M . (1965): Extreme values in uniformaly mixing stationary stochastic processes, Ann. Math. Statist., 36, 993-999.
[31] M A N N , N A N C Y R . (I972): Best linear invariant estimators of Weibull parameters:
samples censored by time and truncated distributions, in International Conference on
Structural Safety and Reliability, A. M. Freudenthal éd., Pergamon Press, 107-114.
[32] M I S E S , R . V O N (1936): La distribution de la plus grande de n valeurs. Rev. Math. Union
Interbalkanique, 1, 141-160.
[33] N E W E L L , G. F . (1964): Asymptotic extremes for m-dependent random variables, Ann.
Math. Statist., 35, 1322-1325.
[34] O ' B R I E N , G . L . (1974): Limit theorems for the maximum term of a stationary process,
Ann. Probab., 2, 540-545.
[35] PiCKANDS, III, J . (1981): Multivariate extreme value theory. Bull. Intl. Statist. Inst.,
49th session (Buenos Aires), 859-878.
[36] R A M A C H A N D R A N , G . (1974): Extreme value theory and large fire losses. The Astin
Bull., VII, 293-310.
[37] R E S N I C K , S I D N E Y I. {\9%iy,Extreme values, Regular Variation and Point Processes,
Springer-Verlag.
[38] R I C E , S . O . (1939): The distribution of the maxima of a random curve. Amer. J. Math.
61, 409-416.
[39] R I C E , S . O . (I944, 1945): Mathematical analysis of random noise (I e II), Bell System
Techn. J., 23, m-332 Q 24, 46-156.
[40] SiBUYA, M . (I960): Bivariate extreme statistics, I, Ann. Inst. Statist. Math. (Tokyo),
11, 195-210.
[41] S M I R N O V , N . V. (1949): Limit distributions for the terms of a variational series. Amer.
Math. Soc. Transi., 67 (1952), 1-64.
[42] TiAGO DE O L I V E I R A , J . (1958): Extremal distributions, Rev. Fac. Cienc. Lisboa, 2^
ser., A, 7, 215-227.
480
J. TlAGO DE OLIVEIRA
[43] TlAGO DE O L I V E I R A , J . (1962/63): Structure theory of bivariate extremes; extensions,
Estudos Mat., Estatist, Ecometr., 7, 165-195.
[44] TlAGO DE OLIVEIRA, J . (1966): Quasi-linearly invariant prediction, Ann. Math.
Statist., 37, 1634^1687.
[45] TlAGO DE O L I V E I R A , J. (1968): Efficiency evaluations for quasi-linearly invariant
predictors. Rev. Beige Statist. Rech. Operat., 9, 1-9.
[46] TlAGO DE O L I V E I R A , J . (1968'): Extremal processes, definition and properties, Publ.
Inst. Statist. Univ. Paris, 17, 25-36.
[47] TlAGO DE O L I V E I R A , J . (1972): Statistics for Gumbel and Fréchet«distríbutions, International Conference on Structural Safety and Reliability, A. M. Freudenthal éd., Pergamon
Press, 91-105.
[48] TiAGO DE O L I V E I R A , J . (1973): An extreme markovian stationary process, Procredings of the 4th. Conference in Probability Theory, Acad. Romania, 217-225.
[49] TlAGO DE O L I V E I R A , J . (1974): Regression in the nondiferentiable bivariate extreme
models. / . Amer. Stat. Assoc, vol. 69, 816-818.
[50] TlAGO DE O L I V E I R A , J . (1975): Statistical decision for extremes, Trab. Estad, y Inv.
Oper. (Madrid), XXVI, 453-471.
[51] TlAGO DE O L I V E I R A , J. (1975'): Bivariate and multivariate extreme distributions.
Statistical Distributions in Scientific Work, G.P. Patil et al. eds., 1, D. Reidel Publ., 355361.
[52] TlAGO DE O L I V E I R A , J . (1977): Asymptotic distributions of univariate and bivariate
m-th extremes. Recent Developments in Statistics, J. R. Barra et al. eds.. North Holland,
613-617.
[53] TlAGO DE O L I V E I R A , J . (1977'): Statistical methodology for large claims. The Astin
Bull., IX, 1-9.
[54] TlAGO DE O L I V E I R A , J . (1978/79): Extremos bivariados; modelos e perspectivas,
Mem. Acad. Ciencias Lisboa, cl. Ciencias, XXII, 371-386.
[55] TlAGO DE O L I V E I R A , J . (1978): Estatística de extremos, Act. V. Jorn. Mat. LusoEspanholas (Aveiro), I, 1-19.
[56] TlAGO DE O L I V E I R A , J . (1981): Statistical choice of univariate extreme models. Statistical Distribution in Scientific work, C. Taillie et al. eds., 6, 367-387, D. Reidel.
[57] TlAGO DE O L I V E I R A , J . (1982): A definition of estimator efficiency in k-parameter
case, Ann. Inst. Statist. Math. (Tokyo), 34, 411-421.
[58] TlAGO DE O L I V E I R A , J . , ed. (1984): Statistical Extremes and Applications, D. Reidel
Publ.
[59] TlAGO DE O L I V E I R A , J . (1984'): Bivariate extremes: models and statistical decision.
Act. V SINAPE (Brasil), 57-67.
PERSPECTIVAS SOBRE A ESTATISTICA DE EXTREMOS
481
[60] TlAGO DE O L I V E I R A , J . (1986): Statistical choice of univariate extreme models, Mem.
Acad. Ciencias Lisboa, cl. Ciencias, XXVII, 107-110.
[61] TlAGO DE O L I V E I R A , J . (1987): Comparaison entre les modèles bivariés logistique et
naturel pour les maxima; extensions, C. R. Acad. Se. Paris, 305, ser. I, 481-484.
[62] TlAGO DE O L I V E I R A , J . (1989): Statistical decision for bivariate extremes. Extreme
Value Theory, (Proceedings Oberwolfach, 1987), Lect. Notes Statist., eds. J. Hiisler and
R.-D. Reiss, Springer-Veriag, 246-261.
[63] TlAGO DE O L I V E I R A , J . (1989'):,Intrinsic estimation of the dependence structure for
bivariate extremes, Statist, and Probab. Letters, 8, 213-218.
[64] TlAGO DE O L I V E I R A , J . (1989"): Bivariate models for floods of rivers, apresentado
na 47^ sessâo do Int. Statist. Inst., sumario in Contributed Papers, 2, 391-392.
[65] TlAGO DE O L I V E I R A , J . (1990): Some open questions on statistical extremes theory,
Actas XII Jorn. Mat. Luso-Espanholas, (1987), I, Braga.
[66] TlAGO DE O L I V E I R A , J . (1990'): An evaluation of the speed of convergence in the
distribution of maxima and its acceleration by transformations, a publ.
[67] TlAGO DE O L I V E I R A , J . (1991): Intrinsic estimation of the dependence function in
bivariate extremes; a new and simpler approach, a publ. em Commun, in Statist., Theor.Math.
[68] TlAGO DE OLIVEIRA, J. AND LiTTAUER, S. B . (1976): Mean square invariant
forecasters for the Weibull distribution. Naval Res. Log. Quat., 23, 487-511.
[69] W A T S O N , G . S . (1954): Extreme values in samples from m-dependent stationary stochastic processes, Ann. Math. Statist. 25, 798-800.
[70] W E I B U L L , W (I939): A statistical theory of strrenght of materials, Ing. Vet. Ak. Handl,
Download

Perspectivas sobre a Estatística de Extremos, Resultados básicos e