Análise de associação, copulas e aplicação a dados lingüísticos
Verónica Andrea González-López & Jesús Enrique García
Universidade Estadual de Campinas – IMECC
16o. SINAPE
Simpósio Nacional de Probabilidade e Estatística
Motivação
Copulas
Dados Lingüísticos
Etapas na Modelagem
Análise
Discrepância
Suporte Parcial:
VAGL: FAPESP/Brasil-Projeto 01/02576-0
JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1;
Acordo USP-COFECUB e CAPES/PICDT
Agradecemos a Franck Ramus por ter cedido as frases para este estudo
0.0
0.2
y
0.4
0.6
Geramos
xy
x=(x1,...,xn)~Exp(2)
y=(y1,...yn)~Exp(10)
0.0
0.5
1.0
1.5
x
2.0
2.5
3.0
1.0
“independência mascarada
Pelas marginais”
0.2
0.4
Fy
0.6
0.8
Fx=1-exp(-2*x)
Fy=1-exp(-10*y)
0.0
Genest & Boies(2003)
0.0
0.2
0.4
0.6
Fx
0.8
1.0
Dependência entre X e Y como composição de:
(FX, FY, Copula)
 Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y))
f.d.a. conjunta
f.d.a. marginais
Copula entre X e Y
(f.d.a.
FX,Y
FX , FY
C
de (U,V)=(FX(x),FY(y)) )
Copulas: f.d.a. em [0,1]2
 Conhecidas FX,Y , FX , FY determinamos C
C(u,v)= FX,Y (F-1X(u) , F-1Y(v))
Tipos de dependência:
• Concordância (TP2, PA, SI)
• Discordância (RR2, NA, SD)
•
Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl),
Italiano(itl), Japonês(jap), Polonês(pol).
•
Interesse: construir grupos de línguas que apresentam famílias de copulas
“semelhantes”.
Fundamento para a existência destes grupos:
•

%V é a proporção de tempo
correspondente a vogais
 ΔC é o desvio padrão dos
intervalos consonantais
(Ramus, F., Nespor, M., Mehler,
J., 1999)
Sinal Acústico frase do Italiano
(itl1151)
I genitori lasciano Marco senza risorse
Ampliação Local do Sinal Acústico
O sinal x(t) representa a pressão do ar no microfone
Sinal Acústico e Espectrograma
O espectrograma
 O espectrograma para o tempo t e freqüência f , sx(t,f), pode
ser interpretado como a energia que a freqüência f aporta ao
sinal acústico no tempo t.
 No gráfico do espectrograma as regiões mais obscuras
correspondem a valores maiores de energia.
f
t
Para a regularidade (sonoridade) dividimos o espectrograma
em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz
Irregular
Regular
Para a energia dividimos o espectrograma em três regiões:
de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz
Baixa energia
Alta energia
Regiões de Interesse no
espectrograma
5000 hz
1500 hz
800 hz
80 hz
Variáveis















SL: sonoridade no intervalo de freqüências (80 hz, 800 hz)
SH: sonoridade no intervalo (800 hz, 5000 hz)
δS: variação da sonoridade no intervalo (80 hz, 800 hz)
NmaxL: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz)
NmaxH: media do máximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000
hz)
NmaxT: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000
hz)
EntrL: media da entropia de pt no intervalo (80 hz, 800 hz)
EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz)
E1: Energia no intervalo de freqüências (80 hz, 800 hz)
E2: Energia no intervalo de freqüências (800 hz, 1500 hz)
E3: Energia no intervalo de freqüências (1500 hz, 5000 hz)
PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz)
PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz)
PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz)
PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências
anteriores mas com pesos diferentes
Estrutura dos dados (exemplo: dul)
Variável: Sonoridade Baixa (SL)
falante 1
falante 2 falante 3 falante 4
0.6550426 0.6135087 0.6117972 0.5730899
0.7323834 0.6992477 0.7009909 0.6487062
0.6542365 0.6234283 0.5932358 0.5971551
0.6874328 0.7043169 0.7221783 0.6267546
...
Variável: Sonoridade Alta
...
(SH)
falante 1
falante 2
falante 3 falante 4
0.2941877
0.3928520
0.3615761
0.3233377
...
...
0.2685418
0.3540849
0.2726972
0.3160166
0.3287807
0.4185050
0.3262655
0.3742268
0.3082171
0.3928807
0.3221294
0.3324148
Holandês(dul): SL vs SH por falante
Falante 3
0.40
SH
0.30
0.34
0.36
0.35
0.38
SH
0.42
0.40
0.44
0.46
0.45
Falante 1
0.65
0.70
0.75
0.80
0.60
0.65
0.70
0.75
SL
SL
Falante 2
Falante 4
0.80
0.30
0.28
0.30
0.35
SH
SH
0.32
0.40
0.34
0.45
0.60
0.60
0.65
0.70
SL
0.75
0.80
0.60
0.65
0.70
SL
0.75
0.80
Japonês(jap): SL vs SH por falante
Falante 2
SH
0.45
0.38
0.35
0.32
0.34
0.40
0.36
SH
0.40
0.50
0.42
0.44
0.55
Falante 1
0.70
0.75
0.65
0.70
0.75
SL
SL
Falante 3
Falante 4
0.32
0.35
0.34
0.40
0.36
SH
SH
0.38
0.45
0.40
0.42
0.50
0.65
0.60
0.65
0.70
SL
0.75
0.80
0.60
0.65
0.70
SL
0.75
0.80
 Propósito:
1. modelar a dependência (copula) entre SL e
SH (e outras variáveis), tirando a influência
dos falantes.
2. Usando esta modelagem construir grupos de
línguas que apresentam famílias de copulas bi
variadas “semelhantes”.
 Passos da modelagem:
1. Ajuste de um modelo de Regressão
2. Ajuste Copula
Yij=μ+θi+εij , i=1,...,4 (falantes)
j=1,...,n (frases)
Yij (SL, SH, etc...)
Se Yij =SL (por exemplo)
μ =SL media
θi =SL (contribuição para + ou – de cada falante)
εij =erro associado ao falante i na frase j
Sob suposições de independência em Yij, podemos
assumir εij ~ d(0,σe2) independentes
Estimativas robustas de eij =εij/ σe
(Yij-TM(i))/sr
•TM(i): M - estimador de posição para o falante i
•(sr)2:  - estimador de σe2
Estimativas MV de eij =εij/ σe
(Yij-YM(i))/sv
• YM(i): media do falante i
• (sv)2: estimador de MV de σe2
X=esLij (estimativas para SL)
Y=esHij (estimativas para SH)
Holandês e Japonês
Japones
0
y(MV)
-1
0
-2
-2
-1
y(MV)
1
1
2
2
3
Holandes
-2
-1
0
1
2
3
-2
4
0
2
x(MV)
x(MV)
Japones
-1
0
y(R)
0
-1
-2
-2
-3
y(R)
1
1
2
2
3
Holandes
-2
-1
0
1
x(R)
2
3
4
-4
-2
0
x(R)
2
dul
μ (R)
μ (MV)
σ2e (R)
σ2e(MV)
SL
0.660579
0.661683
0.001610
0.001791
SH
0.362121
0.356897
0.000746
0.000829
Jap
μ (R)
μ (MV)
σ2e (R)
σ2e(MV)
SL
0.706116
0.704387
0.000963
0.001255
SH
0.409311
0.408720
0.001700
0.001645
Variabilidade nas classes de falantes (SL)
jap
σ2θ (MV)
σ2θ(R)
dul
σ2θ (MV)
σ2θ(R)
SL
0.000248
0.000109
SL
0.000364
0.000122
Falante/jap YM
TM
Falante/dul YM
TM
1
0.710308
0.711612
1
0.6813747
0.6794029
2
0.701974
0.701671
2
0.6603075
0.6574430
3
0.722242
0.726853
3
0.6702471
0.6682459
4
0.683025
0.683052
4
0.6348015
0.6314455
Variabilidade nas classes de falantes (SH)
jap
σ2θ (MV)
σ2θ(R)
dul
σ2θ (MV)
σ2θ(R)
SH
0.001371
0.001111
SH
0.001073
0.000203
Falante/jap YM
TM
Falante/dul YM
TM
1
0.389836
0.391283
1
0.372275
0.371723
2
0.450763
0.450403
2
0.309141
0.309141
3
0.427250
0.428198
3
0.383640
0.382699
4
0.367032
0.366988
4
0.362531
0.358220
Algoritmo VAGL-NIT
 Percorre 7 famílias de copulas bi - variadas e bi paramétricas, Arquimedianas Generalizadas mais a
copula do máximo : CBBi, i=1,...,7 e CMax
 Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde
FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica,
normal...
 A copula empírica bi – variada baseada em {(uj,vj),
j=1,...,m} será comparada com as famílias de copulas
disponíveis na biblioteca do algoritmo, usando algum
teste de comparação de amostras.
Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)
Fx(x)=(#xi: xi≤x)/n
Fy(y)=(#yi: yi≤y)/n
Croquis da Copula entre X e Y
dul:Fx vs Fy
0.0
0.0
0.2
0.2
0.4
0.4
Fy(R)
Fy(MV)
0.6
0.6
0.8
0.8
1.0
1.0
jap:Fx vs Fy
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
Fx(R)
Fx(MV)
dul:Fx vs Fy
jap:Fx vs Fy
0.8
1.0
0.8
1.0
0.0
0.0
0.2
0.2
0.4
0.4
Fy(R)
Fy(MV)
0.6
0.6
0.8
0.8
1.0
1.0
0.0
0.0
0.2
0.4
0.6
Fx(MV)
0.8
1.0
0.0
0.2
0.4
0.6
Fx(R)
Outros croquis de copulas
0.8
0.6
Fy(MV)
0.4
0.2
0.0
0.0
0.2
0.4
Fy(MV)
0.6
0.8
1.0
jap:Fx vs Fy-variaveis originais:(SL,NormaXL)
1.0
jap:Fx vs Fy-variaveis originais:(SL,deltaSL)
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
Fx(MV)
jap:Fx vs Fy-variaveis originais:(SH,NormaXH)
jap:Fx vs Fy-variaveis originais:(SH,deltaSL)
1.0
0.8
0.6
Fy(MV)
0.4
0.2
0.0
0.0
0.2
0.4
Fy(MV)
0.6
0.8
1.0
Fx(MV)
1.0
0.0
0.0
0.2
0.4
0.6
Fx(MV)
0.8
1.0
0.0
0.2
0.4
0.6
Fx(MV)
0.8
1.0
Ajuste Copula por VAGL-NIT
para Holandês y Japonês
jap: SL vs SH - MV
0.6
Copula BB7
0.2
0.4
0.6
0.4
0.0
0.0
0.2
Copula BB4
0.8
0.8
1.0
1.0
dul: SL vs SH - MV
0.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
dul: SL vs SH - R
0.6
0.8
1.0
0.6
Copula BB1
0.4
0.2
0.2
0.4
0.6
0.8
0.8
1.0
1.0
jap: SL vs SH - R
0.0
0.0
Copula BB4
0.4
Copula Empirica
Copula Empirica
0.0
0.2
0.4
0.6
Copula Empirica
0.8
1.0
0.0
0.2
0.4
0.6
Copula Empirica
0.8
1.0
Ajuste Copula por VAGL-NIT para Holandês y Japonês
SL VS SH
Copula
δ
θ
MSE
M-W
K-S
dul(MV)
BB4
0.486823
0.450280
0.000109
0.9997
1
dul(R)
BB4
0.526823
0.400280
9e-005
1
1
Jap(MV)
BB7
0.832455
1.131040
5e-005
1
1
Jap(R)
BB1
1.141040
0.625466
5e-005
1
1
Comparação de duas línguas(MV)
(Holandês e Japonês): matriz de concordância(M) -copulas entre
variável i e variável i+j
i= [1]
[2]
[3] [4] [5]
[6]
[7]
[8] [9]
[i+1] "-"
"-"
"-" "-"
"-" "BB6“ "-"
"-"
"-"
[i+2] "-"
"-"
"-" "-" "BB6" "BB6“ "BB7" "-"
"-"
[i+3] "-"
"-"
"-" "-" "BB6“ "BB6" "-" "BB6" "-"
[i+4] "-"
"-"
"-" "-" "BB6“ "BB6“ "-" "BB6“ "-"
[i+5] "-"
"-" "BB6" "-" "BB6“ "BB6" "-"
"-" "BB6“
[i+6] "-" "BB1“ "-" "-" "BB6" "-"
"-" "BB6" "-"
[i+7] "-"
"-" "-" "BB6" "-" "BB6“ "-" "BB6" "-"
[i+8] "BB6" "-" "BB6" "-" "BB6" "-"
"-"
"-"
"-"
[i+9] "BB6" "BB6" "-" "-"
"-"
"-"
"-" "BB6“
[i+10] "BB6“ "-" "-" "-"
"-" "BB6" "-"
[i+11] "-"
"-" "-" "BB4" "BB6" "-"
[i+12] "BB6" "-" "-" "-"
"-"
[i+13] "-" "BB6" "-" "-"
[i+14] "-"
"-" "-"
[i+15] "BB6" "BB1"
[i+16] "-"
[10] [11] [12] [13] [14]
"BB6" "BB6“ "-"
"-" "-"
"-" "BB6“ "-"
"-" "-"
"-"
"-"
"-"
"-" "-"
"-" "BB6" "-"
"-"
"-" "BB6" "-"
"BB7“ "-"
"-"
[15] [16]
"-" "BB6"
"-"
Critério de Discrepância (1): soma de indicadores vezes p valor
mínimo nas discrepâncias
pLi,j =p-valor do teste M-W, para a copula ajustada na língua L ,
L=cat,...,pol; para a dupla de variáveis (i,j)
p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes
I(Mij) = 1 se Mij=“-”; I =0 em caso contrário
N=# total de copulas ajustadas
M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0
Discrepância : soma de indicadores vezes p valor mínimo nas
discrepâncias
M1(MV) cat
cat 0.000000
dul 0.575451
enl 0.504272
esp 0.477394
frl 0.437538
itl 0.394352
jap 0.473412
pol 0.409204
dul
0.575451
0.000000
0.476681
0.473979
0.501307
0.471290
0.532815
0.434835
enl
0.504272
0.476681
0.000000
0.503792
0.443667
0.370986
0.555930
0.440167
esp
0.477394
0.473979
0.503792
0.000000
0.444721
0.424004
0.468421
0.347931
frl
0.437538
0.501307
0.443667
0.444721
0.000000
0.393887
0.428266
0.360984
itl
0.394352
0.471290
0.370986
0.424004
0.393887
0.000000
0.411169
0.371256
jap
0.473412
0.532815
0.555930
0.468421
0.428266
0.411169
0.000000
0.404769
pol
0.409204
0.434835
0.440167
0.347931
0.360984
0.371256
0.404769
0.000000
M1(R) cat
cat 0.000000
dul 0.512683
enl 0.514699
esp 0.441988
frl 0.451922
Itl 0.418509
jap 0.513326
pol 0.428690
dul
0.512683
0.000000
0.478937
0.470930
0.467406
0.374885
0.512814
0.430389
enl
0.514699
0.478937
0.000000
0.466390
0.443947
0.358231
0.527366
0.415599
esp
0.441988
0.470930
0.466390
0.000000
0.436995
0.440963
0.473083
0.342357
frl
0.451922
0.467406
0.443947
0.436995
0.000000
0.406157
0.394006
0.335798
itl
0.418509
0.374885
0.358231
0.440963
0.406157
0.000000
0.407137
0.358050
jap
0.513326
0.512814
0.527366
0.473083
0.394006
0.407137
0.000000
0.408945
pol
0.428690
0.430389
0.415599
0.342357
0.335798
0.358050
0.408945
0.000000
Cluster Discrepância : soma de indicadores vezes p valor mínimo
nas discrepâncias
dul
enl
frl
itl
cat
0.36
cat
0.42
pol
frl
esp
itl
enl
dul
0.40
0.38
0.36
0.34
pol
esp
0.34
Discrepancia Ponderada por p-valor - R
jap
0.38
jap
0.40
0.42
Discrepancia Ponderada por p-valor - MV
Critério de Discrepância (2): soma de indicadores vezes p valor
mínimo nas discrepâncias, ponderada pelas medidas nas caudas
pLi,j =p-valor do teste M-W, para a copula ajustada na língua L ,
L=cat,...,pol; para a dupla de variáveis (i,j)
LL(i,j)=medida na cauda inferior da copula para (i,j)
UL(i,j)=medida na cauda superior da copula para (i,j)
definimos para um par de línguas L1 e L2
(i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2
t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas
diferentes
I(Mij) = 1 se Mij=“-”; I =0 em caso contrário
N=# total de copulas ajustadas
M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0
Cluster de discrepância: soma de indicadores vezes p valor mínimo
nas discrepâncias, ponderados pelas medidas nas caudas
M2(MV) cat
Cat 0.000000
dul 0.210499
enl 0.162398
esp 0.169914
frl 0.125045
itl 0.149718
jap 0.148932
pol 0.163315
dul
0.210499
0.000000
0.150137
0.183674
0.181730
0.165417
0.157821
0.183412
enl
0.162398
0.150137
0.000000
0.176209
0.149436
0.151243
0.189031
0.154153
esp
0.169914
0.183674
0.176209
0.000000
0.154918
0.149519
0.180642
0.139990
frl
0.125045
0.181730
0.149436
0.154918
0.000000
0.153649
0.153342
0.123173
itl
0.149718
0.165417
0.151243
0.149519
0.153649
0.000000
0.149064
0.143485
jap
0.148932
0.157821
0.189031
0.180642
0.153342
0.149064
0.000000
0.145061
pol
0.163315
0.183412
0.154153
0.139990
0.123173
0.143485
0.145061
0.000000
M2(R) cat
cat 0.000000
dul 0.170610
enl 0.161725
esp 0.142283
frl 0.176776
itl 0.150295
jap 0.188911
pol 0.159761
dul
0.170610
0.000000
0.157286
0.167721
0.174214
0.157020
0.173750
0.185207
enl
0.161725
0.157286
0.000000
0.158903
0.147521
0.156322
0.173768
0.161733
esp
0.142283
0.167721
0.158903
0.000000
0.140024
0.149554
0.165917
0.128513
frl
0.176776
0.174214
0.147521
0.140024
0.000000
0.184346
0.136060
0.136335
itl
0.150295
0.157020
0.156322
0.149554
0.184346
0.000000
0.129852
0.156588
jap
0.188911
0.173750
0.173768
0.165917
0.136060
0.129852
0.000000
0.135324
pol
0.159761
0.185207
0.161733
0.128513
0.136335
0.156588
0.135323
0.000000
Cluster de discrepância : soma de indicadores vezes p valor mínimo
nas discrepâncias, ponderados pelas medidas nas caudas
esp
itl
jap
enl
dul
0.125
0.130
0.135
0.140
0.145
0.150
Discrepancia Ponderada por p-valor e medida caudas - MV
enl
dul
jap
pol
itl
frl
cat
esp
0.125
0.130
0.135
0.140
0.145
0.150
0.155
pol
frl
cat
0.120
Discrepancia Ponderada por p-valor e medida caudas - R
cat
frl
dul
itl
esp
jap
pol
enl
0.15
0.20
0.25
0.30
0.35
0.40
0.45
Similaridade / p-valor entre empiricas(K-S)
Critério: são feitas as comparações (entre idiomas) via teste K-S
comparando as empíricas bi dimensionais das variáveis uniformizadas .
O critério consiste em considerar o p-valor máximo de todas as comparações
Comparação entre critérios
δS
SL
esp
itl
jap
dul
enl
pol
frl
cat
0.120
0.125
0.130
0.135
0.140
0.145
0.150
Discrepancia Ponderada por p-valor e medida caudas - MV
 Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New








York: Springer
Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois
bidimensionnelles dont les marges sont données, The Canadian Journal of
Statistics, vol 14 # 2, 145-159
Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The
American Statistician, vol 57 # 4
González-López V. & Tanaka, N. (2003) Bi-variate data modeling through
generalized archimedean copula. RT-MAE 2003-03/IME-USP.
Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens.
Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.
Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: NorthHolland.
Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for
rhythmic class discrimination. Speech Prosody 2002. www.lpl.univaix.fr/sp2002/pdf/galves-etal.pdf.
Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool
for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univaix.fr/sp2002/pdf/garcia-gut-galves.pdf
Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the
speech signal. Cognition, 73, 265-292.
Download

80 hz, 800 hz