Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para este estudo 0.0 0.2 y 0.4 0.6 Geramos xy x=(x1,...,xn)~Exp(2) y=(y1,...yn)~Exp(10) 0.0 0.5 1.0 1.5 x 2.0 2.5 3.0 1.0 “independência mascarada Pelas marginais” 0.2 0.4 Fy 0.6 0.8 Fx=1-exp(-2*x) Fy=1-exp(-10*y) 0.0 Genest & Boies(2003) 0.0 0.2 0.4 0.6 Fx 0.8 1.0 Dependência entre X e Y como composição de: (FX, FY, Copula) Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y)) f.d.a. conjunta f.d.a. marginais Copula entre X e Y (f.d.a. FX,Y FX , FY C de (U,V)=(FX(x),FY(y)) ) Copulas: f.d.a. em [0,1]2 Conhecidas FX,Y , FX , FY determinamos C C(u,v)= FX,Y (F-1X(u) , F-1Y(v)) Tipos de dependência: • Concordância (TP2, PA, SI) • Discordância (RR2, NA, SD) • Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol). • Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. Fundamento para a existência destes grupos: • %V é a proporção de tempo correspondente a vogais ΔC é o desvio padrão dos intervalos consonantais (Ramus, F., Nespor, M., Mehler, J., 1999) Sinal Acústico frase do Italiano (itl1151) I genitori lasciano Marco senza risorse Ampliação Local do Sinal Acústico O sinal x(t) representa a pressão do ar no microfone Sinal Acústico e Espectrograma O espectrograma O espectrograma para o tempo t e freqüência f , sx(t,f), pode ser interpretado como a energia que a freqüência f aporta ao sinal acústico no tempo t. No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia. f t Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz Irregular Regular Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz Baixa energia Alta energia Regiões de Interesse no espectrograma 5000 hz 1500 hz 800 hz 80 hz Variáveis SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) δS: variação da sonoridade no intervalo (80 hz, 800 hz) NmaxL: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz) NmaxH: media do máximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000 hz) NmaxT: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000 hz) EntrL: media da entropia de pt no intervalo (80 hz, 800 hz) EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz) E1: Energia no intervalo de freqüências (80 hz, 800 hz) E2: Energia no intervalo de freqüências (800 hz, 1500 hz) E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências anteriores mas com pesos diferentes Estrutura dos dados (exemplo: dul) Variável: Sonoridade Baixa (SL) falante 1 falante 2 falante 3 falante 4 0.6550426 0.6135087 0.6117972 0.5730899 0.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.6267546 ... Variável: Sonoridade Alta ... (SH) falante 1 falante 2 falante 3 falante 4 0.2941877 0.3928520 0.3615761 0.3233377 ... ... 0.2685418 0.3540849 0.2726972 0.3160166 0.3287807 0.4185050 0.3262655 0.3742268 0.3082171 0.3928807 0.3221294 0.3324148 Holandês(dul): SL vs SH por falante Falante 3 0.40 SH 0.30 0.34 0.36 0.35 0.38 SH 0.42 0.40 0.44 0.46 0.45 Falante 1 0.65 0.70 0.75 0.80 0.60 0.65 0.70 0.75 SL SL Falante 2 Falante 4 0.80 0.30 0.28 0.30 0.35 SH SH 0.32 0.40 0.34 0.45 0.60 0.60 0.65 0.70 SL 0.75 0.80 0.60 0.65 0.70 SL 0.75 0.80 Japonês(jap): SL vs SH por falante Falante 2 SH 0.45 0.38 0.35 0.32 0.34 0.40 0.36 SH 0.40 0.50 0.42 0.44 0.55 Falante 1 0.70 0.75 0.65 0.70 0.75 SL SL Falante 3 Falante 4 0.32 0.35 0.34 0.40 0.36 SH SH 0.38 0.45 0.40 0.42 0.50 0.65 0.60 0.65 0.70 SL 0.75 0.80 0.60 0.65 0.70 SL 0.75 0.80 Propósito: 1. modelar a dependência (copula) entre SL e SH (e outras variáveis), tirando a influência dos falantes. 2. Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi variadas “semelhantes”. Passos da modelagem: 1. Ajuste de um modelo de Regressão 2. Ajuste Copula Yij=μ+θi+εij , i=1,...,4 (falantes) j=1,...,n (frases) Yij (SL, SH, etc...) Se Yij =SL (por exemplo) μ =SL media θi =SL (contribuição para + ou – de cada falante) εij =erro associado ao falante i na frase j Sob suposições de independência em Yij, podemos assumir εij ~ d(0,σe2) independentes Estimativas robustas de eij =εij/ σe (Yij-TM(i))/sr •TM(i): M - estimador de posição para o falante i •(sr)2: - estimador de σe2 Estimativas MV de eij =εij/ σe (Yij-YM(i))/sv • YM(i): media do falante i • (sv)2: estimador de MV de σe2 X=esLij (estimativas para SL) Y=esHij (estimativas para SH) Holandês e Japonês Japones 0 y(MV) -1 0 -2 -2 -1 y(MV) 1 1 2 2 3 Holandes -2 -1 0 1 2 3 -2 4 0 2 x(MV) x(MV) Japones -1 0 y(R) 0 -1 -2 -2 -3 y(R) 1 1 2 2 3 Holandes -2 -1 0 1 x(R) 2 3 4 -4 -2 0 x(R) 2 dul μ (R) μ (MV) σ2e (R) σ2e(MV) SL 0.660579 0.661683 0.001610 0.001791 SH 0.362121 0.356897 0.000746 0.000829 Jap μ (R) μ (MV) σ2e (R) σ2e(MV) SL 0.706116 0.704387 0.000963 0.001255 SH 0.409311 0.408720 0.001700 0.001645 Variabilidade nas classes de falantes (SL) jap σ2θ (MV) σ2θ(R) dul σ2θ (MV) σ2θ(R) SL 0.000248 0.000109 SL 0.000364 0.000122 Falante/jap YM TM Falante/dul YM TM 1 0.710308 0.711612 1 0.6813747 0.6794029 2 0.701974 0.701671 2 0.6603075 0.6574430 3 0.722242 0.726853 3 0.6702471 0.6682459 4 0.683025 0.683052 4 0.6348015 0.6314455 Variabilidade nas classes de falantes (SH) jap σ2θ (MV) σ2θ(R) dul σ2θ (MV) σ2θ(R) SH 0.001371 0.001111 SH 0.001073 0.000203 Falante/jap YM TM Falante/dul YM TM 1 0.389836 0.391283 1 0.372275 0.371723 2 0.450763 0.450403 2 0.309141 0.309141 3 0.427250 0.428198 3 0.383640 0.382699 4 0.367032 0.366988 4 0.362531 0.358220 Algoritmo VAGL-NIT Percorre 7 famílias de copulas bi - variadas e bi paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMax Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal... A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho) Fx(x)=(#xi: xi≤x)/n Fy(y)=(#yi: yi≤y)/n Croquis da Copula entre X e Y dul:Fx vs Fy 0.0 0.0 0.2 0.2 0.4 0.4 Fy(R) Fy(MV) 0.6 0.6 0.8 0.8 1.0 1.0 jap:Fx vs Fy 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 Fx(R) Fx(MV) dul:Fx vs Fy jap:Fx vs Fy 0.8 1.0 0.8 1.0 0.0 0.0 0.2 0.2 0.4 0.4 Fy(R) Fy(MV) 0.6 0.6 0.8 0.8 1.0 1.0 0.0 0.0 0.2 0.4 0.6 Fx(MV) 0.8 1.0 0.0 0.2 0.4 0.6 Fx(R) Outros croquis de copulas 0.8 0.6 Fy(MV) 0.4 0.2 0.0 0.0 0.2 0.4 Fy(MV) 0.6 0.8 1.0 jap:Fx vs Fy-variaveis originais:(SL,NormaXL) 1.0 jap:Fx vs Fy-variaveis originais:(SL,deltaSL) 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 Fx(MV) jap:Fx vs Fy-variaveis originais:(SH,NormaXH) jap:Fx vs Fy-variaveis originais:(SH,deltaSL) 1.0 0.8 0.6 Fy(MV) 0.4 0.2 0.0 0.0 0.2 0.4 Fy(MV) 0.6 0.8 1.0 Fx(MV) 1.0 0.0 0.0 0.2 0.4 0.6 Fx(MV) 0.8 1.0 0.0 0.2 0.4 0.6 Fx(MV) 0.8 1.0 Ajuste Copula por VAGL-NIT para Holandês y Japonês jap: SL vs SH - MV 0.6 Copula BB7 0.2 0.4 0.6 0.4 0.0 0.0 0.2 Copula BB4 0.8 0.8 1.0 1.0 dul: SL vs SH - MV 0.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 dul: SL vs SH - R 0.6 0.8 1.0 0.6 Copula BB1 0.4 0.2 0.2 0.4 0.6 0.8 0.8 1.0 1.0 jap: SL vs SH - R 0.0 0.0 Copula BB4 0.4 Copula Empirica Copula Empirica 0.0 0.2 0.4 0.6 Copula Empirica 0.8 1.0 0.0 0.2 0.4 0.6 Copula Empirica 0.8 1.0 Ajuste Copula por VAGL-NIT para Holandês y Japonês SL VS SH Copula δ θ MSE M-W K-S dul(MV) BB4 0.486823 0.450280 0.000109 0.9997 1 dul(R) BB4 0.526823 0.400280 9e-005 1 1 Jap(MV) BB7 0.832455 1.131040 5e-005 1 1 Jap(R) BB1 1.141040 0.625466 5e-005 1 1 Comparação de duas línguas(MV) (Holandês e Japonês): matriz de concordância(M) -copulas entre variável i e variável i+j i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-" [i+12] "BB6" "-" "-" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-" [i+15] "BB6" "BB1" [i+16] "-" [10] [11] [12] [13] [14] "BB6" "BB6“ "-" "-" "-" "-" "BB6“ "-" "-" "-" "-" "-" "-" "-" "-" "-" "BB6" "-" "-" "-" "BB6" "-" "BB7“ "-" "-" [15] [16] "-" "BB6" "-" Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepâncias pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0 Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias M1(MV) cat cat 0.000000 dul 0.575451 enl 0.504272 esp 0.477394 frl 0.437538 itl 0.394352 jap 0.473412 pol 0.409204 dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835 enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167 esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256 jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769 pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000 M1(R) cat cat 0.000000 dul 0.512683 enl 0.514699 esp 0.441988 frl 0.451922 Itl 0.418509 jap 0.513326 pol 0.428690 dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389 enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599 esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357 frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798 itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050 jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945 pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000 Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias dul enl frl itl cat 0.36 cat 0.42 pol frl esp itl enl dul 0.40 0.38 0.36 0.34 pol esp 0.34 Discrepancia Ponderada por p-valor - R jap 0.38 jap 0.40 0.42 Discrepancia Ponderada por p-valor - MV Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudas pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) LL(i,j)=medida na cauda inferior da copula para (i,j) UL(i,j)=medida na cauda superior da copula para (i,j) definimos para um par de línguas L1 e L2 (i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2 t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0 Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas M2(MV) cat Cat 0.000000 dul 0.210499 enl 0.162398 esp 0.169914 frl 0.125045 itl 0.149718 jap 0.148932 pol 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000 M2(R) cat cat 0.000000 dul 0.170610 enl 0.161725 esp 0.142283 frl 0.176776 itl 0.150295 jap 0.188911 pol 0.159761 dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207 enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733 esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513 frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335 itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588 jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135324 pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135323 0.000000 Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas esp itl jap enl dul 0.125 0.130 0.135 0.140 0.145 0.150 Discrepancia Ponderada por p-valor e medida caudas - MV enl dul jap pol itl frl cat esp 0.125 0.130 0.135 0.140 0.145 0.150 0.155 pol frl cat 0.120 Discrepancia Ponderada por p-valor e medida caudas - R cat frl dul itl esp jap pol enl 0.15 0.20 0.25 0.30 0.35 0.40 0.45 Similaridade / p-valor entre empiricas(K-S) Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações Comparação entre critérios δS SL esp itl jap dul enl pol frl cat 0.120 0.125 0.130 0.135 0.140 0.145 0.150 Discrepancia Ponderada por p-valor e medida caudas - MV Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: Springer Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159 Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4 González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP. Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231. Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: NorthHolland. Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. www.lpl.univaix.fr/sp2002/pdf/galves-etal.pdf. Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univaix.fr/sp2002/pdf/garcia-gut-galves.pdf Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.