UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A DADOS HIDROGEOLÓGICOS Vânia Sofia Pires Simões Gomes Dissertação Mestrado em Estatística 2013 1 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A DADOS HIDROGEOLÓGICOS Vânia Sofia Pires Simões Gomes Dissertação orientada pela Prof.ª Doutora Fernanda Diamantino e coorientada pela Prof.ª Doutora Catarina Silva Mestrado em Estatística 2013 2 3 Índice Índice de Figuras ............................................................................................................. iii Índice de Tabelas .............................................................................................................. v Índice de Anexos ............................................................................................................. vi Resumo ........................................................................................................................... vii Abstract ............................................................................................................................ ix Capítulo 1: Introdução ...................................................................................................... 1 1.1. Objetivos do estudo ........................................................................................... 1 1.2. Enquadramento geológico ................................................................................. 6 Capítulo 2: Metodologia ................................................................................................... 9 2.1. Conceitos de álgebra matricial ............................................................................... 9 2.1.1. Conceito de matriz .......................................................................................... 9 2.1.2. Tipos de matrizes ............................................................................................ 9 2.1.3. Igualdade de matrizes .................................................................................... 10 2.1.4. Operações com matrizes................................................................................ 11 2.1.5. Traço de uma matriz ...................................................................................... 11 2.1.6. Vetores linearmente dependentes e independentes ....................................... 11 2.1.7. Característica de uma matriz ......................................................................... 12 2.1.8. Determinante ................................................................................................. 12 2.1.9. Matriz adjunta e matriz inversa ..................................................................... 13 2.1.10. Matriz ortogonal .......................................................................................... 13 2.1.11. Valores próprios e vetores próprios ............................................................ 13 2.1.12. Decomposição espetral ................................................................................ 14 2.2. Características amostrais .................................................................................. 15 2.2.1. Características amostrais univariadas ....................................................... 15 2.2.2. Características amostrais bivariadas ......................................................... 16 2.3. Técnicas de Análise Multivariada .................................................................... 18 2.3.1. Análise em Componentes Principais ........................................................ 19 2.3.1.1. Introdução ............................................................................................... 19 2.3.1.2. O modelo matemático ............................................................................. 20 2.3.1.3. Número de componentes a reter ............................................................. 22 i 2.3.2. Análise Fatorial ........................................................................................ 23 2.3.2.1. Introdução ............................................................................................... 23 2.3.2.2. O modelo matemático ............................................................................. 23 2.3.2.3. Número de fatores a reter ....................................................................... 24 2.3.2.4. Rotação dos fatores ................................................................................. 25 2.3.2.5. Método de extração dos fatores .............................................................. 26 2.3.2.6. Validação do modelo de análise fatorial................................................. 27 2.3.2.7. Análise em Componentes Principais versus Análise Fatorial ................ 28 2.3.3. Análise de Clusters ................................................................................... 29 2.3.3.1. Introdução.......................................................................................... 29 2.3.3.2. Medidas de proximidade ................................................................... 30 2.3.3.3. Métodos de agregação ....................................................................... 32 2.3.3.4. Critérios de agregação ....................................................................... 33 Capítulo 3: Análise de dados hidrogeológicos ............................................................... 35 3.1. Análise Exploratória dos Dados ...................................................................... 39 3.1.1. Características amostrais .......................................................................... 39 3.1.2. Correlação linear de Pearson .................................................................... 45 3.1.3. Representações gráficas ............................................................................ 47 3.2. Análise Multivariada ........................................................................................ 63 3.2.1. Análise em Componentes Principais ........................................................ 63 3.2.2. Análise Fatorial ........................................................................................ 71 3.2.3. Análise de Clusters ................................................................................... 78 Capítulo 4: Conclusões ................................................................................................... 89 Considerações Finais ...................................................................................................... 95 Bibliografia ..................................................................................................................... 97 Anexos .......................................................................................................................... 101 ii Índice de Figuras Figura 1: Localização geográfica das amostras de água e respetivas formações geológicas .......................................................................................................4 Figura 2: Localização geográfica das amostras de água ................................................ 36 Figura 3: Localização geográfica das amostras de água e respetivas formações geológicas .......................................................................................................37 Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando cada formação geológica ................................................................................. 48 Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica, para cada ião....................................................................................................51 Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma das variáveis em estudo .................................................................................. 54 Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as variáveis condutividade elétrica, cálcio, sódio e cloreto .................................58 Figura 8: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato, cálcio e magnésio ........................................................ 60 Figura 9: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato, cálcio e sulfato ............................................................ 61 Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis nitrato e sulfato ............................................................................................... 62 Figura 11: Scree plot (número de componentes principais versus valores próprios) .....65 Figura 12: Representação gráfica dos loadings das duas primeiras componentes principais.......................................................................................................67 Figura 13: Representação gráfica dos scores (observações) das duas primeiras componentes principais ................................................................................ 68 Figura 14: Representação gráfica dos scores (formações geológicas) das duas primeiras componentes principais ................................................................ 69 Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações) das duas primeiras componentes principais .................................................. 70 Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações geológicas) das duas primeiras componentes principais .............................. 70 Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores ........................ 75 iii Figura 18: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Ward ........................................................................79 Figura 19: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Ward com as variáveis estandardizadas ....................................................... 79 Figura 20: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Complete Linkage ................................................ 80 Figura 21: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Complete Linkage com as variáveis estandardizadas ...................................81 Figura 22: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global usando o método de Ward .........................................83 Figura 23: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Ward com as 5 primeiras componentes principais .......................................84 Figura 24: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global usando o método de Complete Linkage .................... 85 Figura 25: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Complete Linkage com os scores das 5 primeiras componentes principais.......................................................................................................86 Figura 26: Dendogramas (observações) para cada formação geológica utilizando o método de Ward (variáveis estandardizadas) ...............................................87 iv Índice de Tabelas Tabela 1: Escala de avaliação da análise fatorial............................................................ 27 Tabela 2: Proveniência das amostras ..............................................................................38 Tabela 3: Características amostrais das variáveis (amostra global) ............................... 39 Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada grupo de formações geológica ........................................................................44 Tabela 5: Valores próprios da matriz de correlações amostral .......................................63 Tabela 6: Proporção de variância explicada por cada componente e proporção de variância acumulada explicada até à componente j. .......................................64 Tabela 7: Matriz dos loadings das componentes principais ...........................................66 Tabela 8: Valores próprios da matriz de correlações amostral .......................................71 Tabela 9: Proporção de variância explicada por cada fator e proporção de variância acumulada pelo fator j ..................................................................................... 72 Tabela 10: Comunalidades iniciais e extraídas através do método das componentes principais.......................................................................................................73 Tabela 11: Matriz dos loadings (sem rotação dos fatores) .............................................73 Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação varimax .......................................................................................................74 Tabela 13: Matriz dos loadings (após rotação varimax) ................................................ 74 Tabela 14: Designação dos fatores ................................................................................. 75 Tabela 15: KMO e teste de esfericidade de Bartlett ....................................................... 76 Tabela 16: Medida de adequação amostral para cada variável (MSA) .......................... 77 Tabela 17: Caracterização dos grupos de formações geológicas....................................89 Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por cada variável .................................................................................................90 v Índice de Anexos Anexo 1: Matriz dos dados............................................................................................ 104 Anexo 2: Caracterização dos grupos de formações geológicas ....................................105 Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores) para cada variável.......................................................................................... 107 Anexo 4: Matriz de correlações de Peason - amostra gobal..........................................108 Anexo 5: Matriz de correlações de Pearson - Aluviões ................................................ 109 Anexo 6: Matriz de correlações de Pearson - Formação de Benfica............................. 110 Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa ............111 Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos ..................... 112 Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale de Chelas .......................................................................................................113 Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres ................................................................................ 114 Anexo 11: Scores das 5 primeiras componentes principais ..........................................116 vi Resumo Para o presente estudo utilizaram-se análises químicas de 48 amostras de água subterrânea da cidade de Lisboa das quais se selecionaram 13 variáveis referentes a espécies dissolvidas (aniões e catiões) e parâmetros físico-químicos. Este estudo teve como objetivo avaliar a existência de relação entre a composição química da água subterrânea e as formações geológicas por onde esta circulou, ou seja, pretendeu-se identificar as espécies dissolvidas que caracterizavam cada formação geológica, bem como, identificar o que distinguia cada uma das formações geológicas. Deste modo, numa fase inicial procedeu-se a uma análise exploratória com o intuito de caracterizar a amostra global e as amostras parciais (correspondentes a cada formação geológica) e, numa fase final procedeu-se a uma análise multivariada, onde se utilizaram técnicas de redução de dimensionalidade (análise em componentes principais e análise fatorial) e técnicas de agrupamento de dados (análise de clusters). Concluiu-se que as amostras provenientes da Formação de Benfica e do Complexo Vulcânico de Lisboa tinham composição química idêntica. Relativamente às restantes formações geológicas, não existia uma homogeneidade entre amostras provenientes da mesma formação, nem entre amostras provenientes de formações distintas, pelo que, a caracterização das formações geológicas tornou-se muito complexa. Como os valores das correlações de Pearson, entre as variáveis, eram baixos, a aplicação das técnicas de redução de dimensionalidade não surtiu o efeito desejado. Palavras – chave: Água subterrânea, análise exploratória, análise em componentes principais, análise fatorial, análise de clusters. vii viii Abstract For the present study we used chemical analyzes of 48 groundwater samples of Lisbon in which was selected 13 variables related to dissolved species (anions and cations) and physico-chemical parameters. This study aims to evaluate whether there is a relationship between the chemical composition of the groundwater and the geological formations where it circulated, this is, it was intended to identify the dissolved species that characterize each geological formation, as well as to identify what distinguishes each geological formations. Thus, initially we proceeded with an exploratory analysis in order to characterize the sample and partial samples (corresponding to each geological formation), and in a final stage, we applied a multivariate analysis, where techniques were used to reduce the dimensionality (principal component analysis and factor analysis) and techniques to data clustering (cluster analysis). It was concluded that the samples from the Formação de Benfica and Complexo Vulcânico de Lisboa had identical chemical composition. For the other geological formations, there was no homogeneity among samples from the same formation, or between samples from different formations. Therefore, the characterization of the geologic formations has become very complex. Since the values of the Pearson correlations among the variables were low, the application of reduce the dimensionality techniques do not have the desired effect. Keywords: Groundwater, exploratory analysis, principal component analysis, factor analysis, cluster analysis ix x Capítulo 1: Introdução Este trabalho surge com o intuito de dar resposta a algumas questões relativas à caracterização de águas subterrâneas da cidade de Lisboa, tendo como ponto de partida um conjunto de 48 análises de águas subterrâneas recolhidas não especificamente para este trabalho. Este conjunto resultou de recolhas para a concretização de unidades curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et al, 2008 e Sanches et a,l 2006) e 2º ciclo de estudos em Geologia Aplicada e do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes, 2007). A localização geográfica de, cada amostra de água encontra-se na figura 1, onde se pode observar a que formação geológica corresponde. 1.1. Objetivos do estudo Para a realização deste trabalho foram definidos alguns objetivos, nomeadamente: Calcular, analisar e interpretar as características amostrais; Aferir sobre a qualidade das águas subterrâneas para consumo humano; Analisar e interpretar as representações gráficas (análise exploratória); Identificar as espécies dissolvidas que caracterizam cada formação geológica; Relacionar a composição química da água subterrânea com a formação geológica aflorante no local de recolha; Descrever a variabilidade dos dados com um menor número de variáveis não correlacionadas; Explicar através de um menor número de fatores (não observados) as correlações entre as variáveis; Utilizar uma análise de clusters para reagrupar as amostras de água subterrânea de acordo com a sua composição química; Identificar características distintivas de cada uma das formações geológicas; Identificar características comuns entre as formações geológicas. 1 2 Destaca-se como objetivo principal a caracterização de cada grupo de formações geológicas, através da análise das concentrações das espécies químicas dissolvidas nas águas subterrâneas, bem como de alguns parâmetros físico-químicos. O trabalho será dividido em duas partes. A primeira parte será constituída pelos capítulos 1 e 2 e corresponderá ao desenvolvimento teórico. A segunda parte será constituída pelos capítulos 3 e 4 e corresponderá ao desenvolvimento prático. No capítulo 1 será feito o enquadramento geológico, no qual se fará uma breve introdução às características das formações geológicas. No capítulo 2 será abordada a metodologia a desenvolver. Na primeira secção irão definir-se alguns conceitos de álgebra matricial. Na segunda secção, com o intuito de se efetuar uma análise exploratória dos dados, irão definir-se algumas características amostrais. Na terceira e última secção será feita uma breve abordagem das técnicas de análise multivariada a serem utilizadas, nomeadamente a análise em componentes principais, a análise fatorial e a análise de clusters. No capítulo 3 serão apresentados os resultados obtidos. No capítulo 4 serão apresentadas as conclusões. A análise estatística será efetuada com a utilização do software SPSS, versão 19. 3 Figura 1: Localização geográfica das amostras de água e respetivas formações geológicas 4 5 1.2. Enquadramento geológico A composição química da água subterrânea da área de Lisboa está intimamente relacionada com as características do meio geológico, das condições climáticas e também das atividades humanas que decorrem na cidade. O Concelho de Lisboa situa-se na Orla mesocenozóica, a qual é constituída por espessas séries de sedimentos, onde predominam os sedimentos carbonatados, os arenitos e os argilitos (Almeida et al., 2000). Na área do concelho de Lisboa os terrenos mais antigos, cujos principais afloramentos se encontram nas zonas de Monsanto, Ajuda e Vale de Alcântara, são predominantemente constituídos por calcários, calcários margosos e margas. A geologia de Lisboa, de elevada complexidade, pode ser descrita de um modo simplificado em três setores: Setor SW, Monsanto-Ajuda-Alcântara; Setor NW, Formação de Benfica e Miocénico; Setor E, Série Miocénica. Setor SW: Monsanto-Ajuda-Alcântara As formações calcárias do Cenomaniano, que se apresentam dobradas e fraturadas (Cabral, 2006), estão sobrepostas por formações basálticas do Complexo Vulcânico de Lisboa (β1). Neste setor, as formações cretácicas estendem-se desde a zona central e mais elevada da Serra de Monsanto, seguindo pelo Vale de Alcântara até praticamente ao Rio Tejo, prolongando-se para SW ao longo da encosta do Bairro da Ajuda, aflorando no seio do Complexo Vulcânico de Lisboa (Pais et al., 2006). Esta zona compreende formações do Cretácico superior, como a Formação de Caneças (C2 cn), constituída por calcários margosos e dolomíticos, datados do Albiano superior a Cenomaniano médio. Sobre a formação anterior, assenta a Formação de Bica (C2 Bi), do Cenomaniano superior, representada por calcários compactos e apinhoados, com nódulos de sílex e com rudistas. No topo do Cretácico superior aflora o Complexo Vulcânico de Lisboa, constituído por rochas eruptivas básicas (Basaltos), sob a forma de escoadas lávicas alternando com piroclastos e aglomerados vulcânicos, com idade provável do Cenomaniano (Pais et al., 2006). 6 Setor NW: Formação de Benfica e Miocénico É constituído por formações cenozóicas correspondentes à Formação de Benfica (Φ Bf) e ao Miocénico. Este setor está na continuidade da estrutura de Monsanto e apresenta uma sucessão de ondulações suaves. Sobre o Complexo Vulcânico de Lisboa, assenta, em discordância, a Formação de Benfica (Φ Bf), constituída por depósitos continentais, onde se intercalam níveis mais argilosos, detríticos e carbonatados. Setor Este: Série Miocénica Compreende intercalações de formações detríticas e carbonatadas da Série Miocénica. Apresenta-se, de um modo geral, em monoclinal, inclinando suavemente para E-SE. O Neogénico abrange unidades miocénicas como as Camadas de Prazeres (Mpr), do Aquitaniano a Burdigaliano inferior, constituídas por argilitos, argilitos siltosos e margosos, margas e calcários. Sobrepostas a estas, estão as Areolas de Av. da Estefânia (MEs), datada do Burdigaliano e constituída por areias finas, siltosas, micáceas (areolas) argilas silto arenosas e arenitos mais ou menos consolidados. De seguida, depositaram-se os Calcários de Entrecampos (MEC), formação representada por biocalcarenitos com fração detrítica abundante, por vezes argilosa, ricos de moldes e/ou fragmentos de moluscos e calcários margosos, cinzento-esverdeado. A formação anterior passa superiormente a areias muito finas argilosas, piritosas, e a siltitos argilosos de cor cinzenta, com moluscos, peixes e abundantes microfósseis, correspondente à unidade de Argilas de Forno do Tijolo (MFT). A formação Areias do Vale de Chelas (Mvb) é constituída por areias feldspáticas, fluviais, incoerentes ou fracamente cimentadas, às vezes grosseiras e compactas; em posição superior ocorrem areias dunares. As aluviões (a) do Concelho de Lisboa incluem os depósitos diretamente associados ao leito principal do Rio Tejo e a todas as ribeiras e linhas de água que a este afluem, na sua margem direita. As espessuras das aluviões do Tejo são muito variáveis de local para local. Estas são predominantemente lodosas, com abundante matéria orgânica, ou arenosas. As aluviões das ribeiras afluentes do Tejo têm composição em muitos casos dependentes das litologias erodidas, contendo frequentemente, matéria orgânica (Almeida, 1991). 7 8 Capítulo 2: Metodologia Neste capítulo procede-se ao desenvolvimento teórico das metodologias aplicadas no estudo a realizar. 2.1. Conceitos de álgebra matricial Nesta secção relembram-se alguns conceitos cruciais de álgebra matricial que se utilizam no desenvolvimento das técnicas de análise multivariada. Naturalmente começa-se com o conceito de matriz (Monteiro, 2001, Searle, 1982 e Timm, 2002). 2.1.1. Conceito de matriz Designa-se por matriz de ordem n m, a tabela A = , com n linhas e m colunas. Pode denotar-se a matriz A por [ ] com i = 1,…, n e j = 1,…, m. As entradas aij são os elementos de A, em que i indica a linha e j indica a coluna. Quando uma matriz tem ordem n 1 ou ordem 1 n designa-se por vetor, ou seja, tem n linhas e uma coluna ou tem 1 linha e n colunas, respetivamente. No primeiro caso designa-se por vetor coluna e representa-se do seguinte modo: x = caso designamos por vetor linha e representa-se do seguinte modo: xT = Uma matriz de ordem 1 . No segundo . 1 designa-se por escalar. 2.1.2. Tipos de matrizes No que se segue definem-se alguns tipos de matizes, nomeadamente matriz quadrada, diagonal, identidade, transposta e simétrica. 9 Uma matriz quadrada é a matriz em que o número de linhas é igual ao número de colunas e diz-se que tem ordem n n, ou simplesmente ordem n. Caso contrário, se o número de linhas for diferente do número de colunas, diz-se que a matriz é retangular de ordem n m. com i, j = 1, …, n, designa-se Uma matriz quadrada de ordem n, em que por uma matriz diagonal, ou seja, a uma matriz da forma: Em particular, se d11 = 1,…, dnn = 1, tem-se a matriz Identidade, que se denota por In, e representa-se da forma: . Para qualquer matriz A quadrada de ordem n, verifica-se a seguinte propriedade: AI = IA = A. Seja A uma matriz de ordem n m. Designa-se por matriz transposta de A, e representa-se por AT, à matriz que se obtém trocando as linhas com as colunas, ou seja, as linhas de A são as colunas de AT e as colunas de A são as linhas de AT. Assim sendo, tem-se que: se A = de ordem n m, então AT = de ordem m n. Seja A uma matriz quadrada de ordem n. Diz-se que A é simétrica se e só se A = AT. 2.1.3. Igualdade de matrizes Duas matrizes são iguais se os elementos de uma coincidirem com os elementos da outra, tendo ambas, naturalmente, a mesma ordem. 10 Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = Diz-se que as matrizes A e B são iguais se e só se eB= . , para todo i = 1,…, n e = j = 1,…, m. 2.1.4. Operações com matrizes Por vezes torna-se necessário efetuar algumas operações entre matrizes, como é o caso da adição, da subtração ou do produto de duas ou mais matrizes, bem como a multiplicação de um escalar por uma matriz. Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = A sua soma (diferença), A + B (A – B) é igual a C, onde C = (C = = eB= . = ), com i = 1, …, n e j = 1, …, m. Seja A uma matriz de ordem n m, tal que A = e um escalar. A multiplicação da matriz A por um escalar representa-se por A ou A e é igual a , com i = 1, …, n e j = 1, …, m. Sejam A e B duas matrizes de ordem n por B origina C de ordem n mem p, tal que AB = C = p, respetivamente. O produto de A , onde = . 2.1.5. Traço de uma matriz Seja A uma matriz quadrada de ordem n n, tal que os elementos da diagonal são da forma aii, com i = 1,…, n. Então o traço de A é igual à soma dos elementos da diagonal, ou seja, tr(A) = . 2.1.6. Vetores linearmente dependentes e independentes Os vetores dizem-se linearmente dependentes se for possível escrever o vetor nulo como combinação linear de sem que os escalares sejam todos 11 nulos. Se o vetor nulo só se puder escrever como combinação linear de os escalares todos nulos, então os vetores sendo são linearmente independentes. 2.1.7. Característica de uma matriz Designa-se por característica de uma matriz A de ordem n n o número de linhas (ou colunas) linearmente independentes. Representa-se a característica de A por r(A). 2.1.8. Determinante O determinante de uma matriz de ordem n é dado onde K é o número de inversões1 da por permutação ( quadrada e p indica que a soma ocorre sobre todas as permutações de (1, 2, …, n), ou seja, existem n! permutações. O determinante de uma matriz A pode denotar-se por detA ou |A|. Designa-se por menor complemento de um elemento de um determinante, ao determinante que se obtém, suprimindo a linha e a coluna a que pertence esse elemento (linha i e coluna j). Representa-se por . O complemento algébrico de um elemento é igual ao menor complemento ou ao seu simétrico e representa-se por . Pode-se calcular o determinante de outra forma. Teorema de Laplace: Seja A uma matriz quadrada de ordem n, o seu determinante é igual à soma dos produtos dos elementos de uma linha (ou coluna) pelos respetivos complementos algébricos. Assim sendo, , onde 1 é o complemento algébrico de . Dada uma permutação dos inteiros 1, 2, …, n, existe uma inversão quando um inteiro precede outro menor do que ele. 12 2.1.9. Matriz adjunta e matriz inversa À matriz que se obtém calculando os respetivos complementos algébricos para cada entrada e fazendo a sua transposta, designa-se por matriz adjunta. Representa-se por adj A. Uma matriz A quadrada de ordem n é invertível se existir uma matriz B quadrada de ordem n tal que AB = BA = In. Designamos B por matriz inversa de A e representa-se por A-1. Notas: 1) Uma matriz é invertível se e só se o seu determinante for diferente de zero. 2) A matriz inversa é única. 3) Pode ser obtida por: A-1 = . 2.1.10. Matriz ortogonal Uma matriz A quadrada de ordem n, invertível, diz-se ortogonal se a inversa e a transposta coincidirem, ou seja, A-1 = AT. 2.1.11. Valores próprios e vetores próprios Seja A uma matriz quadrada (n Ax = x. Diz-se que um escalar e x um vetor não nulo tal que é o valor próprio de A e x é um vetor próprio associado. Considere-se a equação |A O polinómio |A n), I| = 0, cujas soluções são os valores próprios da matriz A. I| designa-se por polinómio característico. Observações: Uma vez que a matriz A tem ordem n, então o polinómio característico tem n raízes e deste modo têm-se n valores próprios, sejam , determinar os valores próprios determinam-se os vetores próprios, . Após a , , …, 13 , associados a cada valor próprio. Para esse efeito usa-se a igualdade (A I)x=0. O vetor próprio obtido associado a cada valor próprio não é único, deste modo se x for vetor próprio então cx (c é um escalar não nulo) também é vetor próprio. Notas: 1) A soma dos valores próprios é igual ao traço de A, ou seja, tr(A) = 2) O produto dos valores próprios é igual ao determinante de A, ou seja, det(A) = . . 2.1.12. Decomposição espetral Teorema da decomposição espetral: (Decomposição em valores próprios e vetores próprios) Seja A uma matriz simétrica e considere-se ainda os valores próprios de A e os vetores próprios normalizados. Temos que AQ = Q dos valores próprios, = com QTQ = I, onde é a matriz diagonal e Q a matriz ortogonal dos vetores próprios. Se QT = Q-1, então A = Q QT. 14 2.2. Características amostrais Nesta secção definem-se algumas características amostrais a utilizar na análise exploratória dos dados. 2.2.1. Características amostrais univariadas Para se caracterizar um conjunto de dados, começa-se por calcular algumas características amostrais, de localização e de dispersão. No que se segue, definem-se algumas dessas características amostrais. Mais precisamente, a média, o desvio padrão, os extremos, a mediana e os quartis (Murteira, 2007). Dado um conjunto de observações (x1, …, xn), diz-se que amostral e que = é a média é a variância amostral. O desvio padrão amostral é dado pela raiz quadrada positiva da variância, ou seja, . A média amostral é uma medida de localização, a variância e o desvio padrão amostrais são medidas de dispersão. Estas permitem medir a variabilidade dos em torno da média amostral. Um conjunto de observações (x1, x2, …, xn) pode ser ordenado ordenado de modo ascendente, tal que x1:n x2:n … xn:n, sendo x1:n o mínimo e xn:n o máximo. Tendo um conjunto ordenado de observações, pode-se calcular a mediana do seguinte modo 15 Define-se quantil de ordem p por: onde [np] designa a parte inteira de np. Observações: 1) O quantil de ordem 0,5 designa-se por mediana. 2) Os quantis de ordem 0,25 e 0,75 designam-se por primeiro quartil e terceiro quartil respetivamente. 3) Os quantis de ordem 0,1; … ; 0,9 designam-se por decis. 4) Os quantis de ordem 0,01; …; 0,99 designam-se por percentis. Uma representação gráfica usual para representar os extremos, os quartis e a mediana é o diagrama em caixa de bigodes. 2.2.2. Características amostrais bivariadas Na secção anterior definiram-se algumas características amostrais (no caso univariado). Nesta secção definem-se as características amostrais para o caso bivariado, ou seja, características que permitem comparar as variáveis duas a duas, de forma a avaliar o grau de associação entre as duas variáveis. Neste caso, calculam-se as covariâncias e correlações amostrais. Considere-se um par de observações (xi, yi), com i, j = 1, …, n. Pode-se proceder à sua representação gráfica num referencial cartesiano. Esse gráfico designa-se por diagrama de dispersão. Esta representação gráfica permite avaliar o grau de associação entre duas variáveis. Para quantificar essa associação podem usar-se duas medidas: a covariância amostral e / ou coeficiente de correlação linear. A covariância amostral é dada por cov(x,y) = pode ser denotada por . Também . 16 A covariância é uma estatística bivariada utilizada para quantificar a associação linear entre duas variáveis. Porém, é influenciada pelas unidades de medida. Neste caso, teria de se proceder à estandardização do conjunto de dados, ou por outro lado, calcular-se o coeficiente de correlação amostral. O coeficiente de correlação ou coeficiente de correlação de Pearson é dado por r= , ou seja, . O coeficiente de correlação varia entre -1 e 1 e é usado para variáveis quantitativas. Se as variáveis não forem quantitativas, usa-se o coeficiente de correlação de Spearman. Para calcular o coeficiente de correlação de Spearman procede-se de igual modo, mas substituem-se as observações (qualitativas) pelas respetivas ordens. 17 2.3. Técnicas de Análise Multivariada Nesta secção procede-se ao desenvolvimento teórico das técnicas de análise multivariada a utilizar neste estudo, nomeadamente, a análise em componentes principais (ACP), a análise fatorial (AF) e a análise de clusters (AC). Com estas técnicas pretende-se resumir a informação contida nos dados, de forma a tornar mais fácil a sua interpretação. As duas primeiras técnicas (ACP e AF) relacionam-se diretamente com as variáveis, designam-se por análise modo-R, ao passo que a última técnica (AC) relaciona-se com os indivíduos, designa-se por análise modo-Q. Mais claramente, a análise-modo R permite identificar as variáveis que mais contribuem para a explicação da variabilidade dos dados, com a menor perda de informação. A análise modo-Q é usada para agrupamento de indivíduos em classes/grupos homogéneos, através de características comuns entre os indivíduos. 18 2.3.1. Análise em Componentes Principais 2.3.1.1. Introdução A análise em componentes principais é uma técnica de análise multivariada introduzida pelo estatístico Karl Pearson em 1901 e mais tarde desenvolvida por Hotelling em 1933 (Mardia et al, 1979). A análise em componentes principais é um método de análise multivariada que consiste em transformar um conjunto de variáveis originais correlacionadas num conjunto de novas variáveis não correlacionadas: as componentes principais. As variáveis originais e as componentes principais têm a mesma dimensão. O principal objetivo da ACP é a redução da dimensionalidade, ou seja, a diminuição do número de componentes, de forma a explicar a variabilidade dos dados. Esta redução consegue-se uma vez que as variáveis originais estão correlacionadas, sendo algumas delas redundantes, ao passo que as componentes principais são não correlacionadas, podendo explicar a informação dada pelas variáveis originais com um menor número de componentes. Caso as variáveis originais estejam fracamente correlacionadas, as componentes principais vão coincidir com as variáveis originais. Estas novas variáveis (as componentes principais) são uma combinação linear das variáveis originais, com uma ordem decrescente de importância. A primeira componente principal é a mais importante, uma vez que descreve a maior parte da variabilidade dos dados. Pretende-se que este número de componentes principais seja o menor possível, ou seja, parte-se de p variáveis originais para k componentes principais, com k muito inferior a p, de modo que a perda de informação seja a menor possível. Assim sendo, se as variáveis originais estiverem muito correlacionadas, o número de componentes principais que expliquem a variabilidade é reduzido. Caso as variáveis originais estejam pouco correlacionadas essa redução é pouco significativa. 19 2.3.1.2. O modelo matemático Considere-se o modelo matemático para as componentes principais Yj = a1jX1 + a2jX2 + … + apjXp ou, Y = AX, em que X1, …, Xp são as variáveis originais, Y1, …, Yp são as componentes principais não correlacionadas e de variância decrescente e aij é o peso da j-ésima variável com a i-ésima componente principal, representados na matriz A de ordem p (Chatfield, 1980). Para a determinação das componentes principais tem de se utilizar a matriz de covariâncias amostral ou a matriz de correlações amostral. Quando as escalas de medida das variáveis são diferentes usa-se a matriz de correlações amostral. Desta forma tornase possível a comparação. De salientar que, pelo facto de não existir invariância de escala na ACP, as componentes obtidas são diferentes quando se usa a matriz de covariâncias e quando se usa a matriz de correlações. As componentes principais obtidas também são diferentes quando a unidade de medida das variáveis originais é alterada (Gnanadesikan,1997). Para determinar as componentes principais, começa-se por calcular os valores próprios da matriz de correlações amostral, seguidamente determinam-se os vetores próprios associados a cada valor próprio. Desta forma, cada componente principal é um vetor próprio associado a cada um dos valores próprios. Mais precisamente, a primeira componente principal corresponde ao vetor próprio associado ao maior valor próprio. A segunda componente principal corresponde ao vetor próprio associado ao segundo maior valor próprio e, assim por diante, de modo que as componentes principais sejam ortogonais entre si. Designam-se os valores próprios da matriz de correlações amostral por tem-se que , e 0. Estes valores próprios representam a variância das componentes principais, ou seja, var(Yj) = . A ordenação das componentes principais é feita através da ordenação dos valores próprios, de modo que à i-ésima componente principal corresponda o i-ésimo maior valor próprio. 20 No modelo matemático para as componentes principais com j = 1, …, p, os aij são estimados de modo que a primeira componente contenha a maior variância (maior valor próprio) e assim por diante. Esses pesos são dados pelos vetores próprios associados a cada valor próprio. Tem-se que, = 1 com i = 1, …, p e, ai1aj1 + … + aipajp = 0 para todo o i diferente de j. Os pesos das componentes principais (aij) representam a importância relativa das variáveis originais em cada componente principal. Os yj observados designam-se por scores das componentes principais. A correlação entre as variáveis originais e as componentes principais designa-se por loading. Estes fornecem a indicação de como as variáveis originais são importantes para a formação das componentes principais. Assim sendo, loadings próximos de um indicam que essa variável é importante na formação da componente principal, enquanto loadings próximos de zero indicam que a variável não é importante na formação da componente principal. Os loadings são significantes se forem maiores que 0,3 em valor absoluto. O loading da j-ésima variável com a i-ésima componente principal é dado por , em que aij é o peso da j-ésima variável com a i-ésima componente principal, é o valor próprio da i-ésima componente principal e sj é o desvio padrão da j-ésima variável. A comunalidade da j-ésima variável é dada por , que se refere à proporção de variância das variáveis que são explicadas pelas componentes principais. Neste processo, a variância é preservada, uma vez que a soma das variâncias das variáveis originais é igual à soma das variâncias das componentes principais. 21 2.3.1.3. Número de componentes a reter Ao usar esta técnica de análise multivariada tem de se decidir o número de componentes a reter, ou seja, quantas componentes são necessárias para explicar a variabilidade dos dados. Desta forma, existem algumas regras para decidir o número de componentes principais a reter, de modo que estas expliquem a variabilidade dos dados e que a perda de informação seja a menor possível. Um primeiro critério é reter o número de componentes principais que expliquem pelo menos 80% da variabilidade total. Sendo e a variância total, tem-se que ésima componente principal e a variância da j-ésima componente principal é a proporção explicada pela jé a proporção explicada pelas k primeiras componentes principais. Este valor deve ser superior a 80%. O segundo critério (critério de Kaiser, proposto em 1960) consiste em excluir as componentes principais cujos valores próprios sejam inferiores à sua média aritmética (quando usada a matriz de correlações, a média dos valores próprios é um). O terceiro critério consiste em utilizar uma representação gráfica do número de componentes principais versus os valores próprios. Este gráfico designa-se por scree plot, proposto por Cattell em 1966. O gráfico tem a forma de um “cotovelo”. Deve-se reter o número de componentes principais até o gráfico se tornar praticamente paralelo ao eixo Ox, uma vez que esses valores próprios são muito reduzidos e praticamente iguais, pouco ou nada contribuem para a explicação da variabilidade dos dados (Rencher, 1995). 22 2.3.2. Análise Fatorial 2.3.2.1. Introdução A Análise Fatorial começou a ser desenvolvida pelo psicólogo Charles Spearman em 1904, para testar os fatores de inteligência e habilidade nos jovens, quando realizados testes a diferentes áreas do conhecimento (ciências e humanidades). Mais tarde foi também desenvolvida por Thurstone em 1931 (Harman, 1976). A Análise Fatorial é uma técnica de análise multivariada que consiste em escrever p variáveis y1, y2, … , yp como combinação linear de novas variáveis f1, f2, … , fm, com m menor que p. Estas novas variáveis designam-se por fatores latentes, sendo não observadas. As variáveis y1, y2, … , yp são moderadamente correlacionadas (Rencher, 1995). O objetivo da análise fatorial é reduzir o número de fatores latentes, de forma a explicar a maior correlação existente no conjunto de dados. Pretende-se exprimir o que de comum existe nas variáveis iniciais, de modo a perder-se a menor informação possível. 2.3.2.2. O modelo matemático Considere-se o modelo matemático para a análise fatorial: Ou, alternativamente, usando notação matricial, Y = , onde y = [y1, y2, … , yp]T é o vetor das variáveis, f = [f1, f2, … , fm]T é o vetor dos fatores comuns , T é o vetor dos fatores específicos e é a matriz dos pesos fatoriais, que não é única. Assim sendo, cada variável é decomposta em duas: a parte comum e a parte específica. Os coeficientes são designados por loadings ou pesos, que permitem mostrar de que modo a variável yi depende do fator fj. Estes loadings representam a covariância entre 23 as variáveis e os fatores, ou seja, cov(yi, fj) = com i = 1, … , p e j = 1, … , m desde que cov(y, f) = . Tem-se que E(fj) = 0, var(fj) = 1, cov(fi, fj) = 0, i O j. é a parte residual de Yi, tendo-se E( ) = 0, var( específica, cov( ) = 0, i Tem-se ainda que var(Yi) = j e cov( + = , que é a variância fj) = 0 para todo i e j. +…+ comunalidade, que se refere à variância comum e + = , em que éa é a variância específica ou única, que se refere à variância residual (Rencher, 1995). Se a matriz de correlações tiver valores elevados significa que as variáveis têm bastante em comum, formando grupos homogéneos. Se os valores das correlações forem reduzidos, significa que as variáveis têm pouco ou nada em comum, formando grupos heterogéneos. 2.3.2.3. Número de fatores a reter Na análise em componentes principais tinha de se selecionar um número de componentes mais reduzido, ou seja, era necessário analisar o número de componentes a reter de modo que estas explicassem a variabilidade dos dados, mas também que o seu número fosse bastante reduzido. Teria de se encontrar uma relação parcimoniosa, no sentido de não se usar um número excessivo de componentes, mas também de não se perder informação preciosa. Na análise fatorial pretende-se fazer algo semelhante, decidir o número de fatores a reter de modo a explicar pelo menos 80% da variabilidade total. Escolher um número de fatores igual ao número de valores próprios maiores que a média dos valores próprios. Se for utilizada a matriz de correlações (R), a média é 1, se for utilizada a matriz de covariâncias (S), a média é , em que é o valor próprio da matriz S. À semelhança da análise em componentes principais, pode-se usar o teste do scree plot dos valores próprios de S ou R versus o número de fatores. O gráfico obtido apresenta inicialmente uma acentuada inclinação e no final uma reduzida inclinação, pelo que os valores próprios serão praticamente iguais e reduzidos. Deve-se então reter o número de fatores (m) a partir dos quais o gráfico fica uma reta paralela ao eixo das abcissas, tendo este gráfico a forma de um “cotovelo” (Rencher, 1995). 24 2.3.2.4. Rotação dos fatores Para uma melhor interpretação dos fatores obtidos inicialmente, recorre-se à rotação dos eixos. Existem várias técnicas de rotação. Este método de rotação consiste na transformação da solução inicial através da multiplicação de uma matriz de rotação ortogonal pela matriz dos loadings, de modo que a solução seja interpretada de uma forma mais eficiente. Com esta rotação pretendese aumentar os valores absolutos dos grandes loadings e reduzir os valores absolutos dos pequenos loadings, distinguindo assim loadings significantes de loadings insignificantes. As rotações podem ser ortogonais ou oblíquas. As mais utlizadas são as ortogonais, destacando-se, a rotação varimax, a rotação quartimax e a rotação equimax. Com o método varimax pretende-se maximizar a variância dos loadings de cada coluna da matriz , de forma a existirem alguns loadings significativos e todos os outros próximos de zero. Pretende-se maximizar V, com a restrição das comunalidades permanecerem inalteradas. Para um dado fator j, tem-se , onde variáveis no fator j, é a variância da comunalidade das é o quadrado do loading da i-ésima variável no j-ésimo fator, é a média do quadrado dos loadings para o fator j, p é o número de variáveis e k é o número de fatores. A variância total V de todos os fatores é dada por: Este método, desenvolvido por Kaiser em 1958, tornou-se muito popular. Com o método quartimax pretende-se simplificar as linhas da matriz de loadings, ou seja, tornar os loadings de cada variável elevados para um pequeno número de fatores e próximos de zero para os restantes. Pretende-se maximizar Q, com a restrição das comunalidades não se alterarem. 25 Para uma dada variável i, tem-se , onde variável i e é a variância da comunalidade na é a média do quadrado dos loadings na variável i. A variância total Q de todas as variáveis é dada por: Com o método equamax pretende-se fazer uma mistura dos dois anteriores métodos (Afifi, 1996, Harman, 1976, Rencher, 1995, Sharma, 1996 e Timm, 2002). 2.3.2.5. Método de extração dos fatores Os métodos de extração dos fatores disponíveis no SPSS são: método das componentes principais (principal components), método da máxima verosimilhança (maximum likelihood), método dos mínimos quadrados (unweighted least squares and generalized least squares), principal axis factoring, alpha factoring e image factoring. Com estes métodos procede-se à extração dos fatores e consequentemente à estimação dos loadings e das comunalidades. O método das componentes principais é bastante usual. O SPSS utiliza-o por defeito. 26 2.3.2.6. Validação do modelo de análise fatorial Para avaliar a qualidade da análise efetuada realizam-se alguns testes. A análise fatorial é usada para descrever as correlações entre as variáveis. Deste modo, torna-se necessário que a matriz de correlações seja significativamente diferente da matriz identidade, efetuando-se o teste de esfericidade de Bartlett. Este teste usa-se para testar H0: R = I versus H1: R I, em que R é a matriz de correlações amostral e I a matriz identidade. A estatística de teste é – (n – 1 – ) com distribuição qui- quadrado com p (p - 1) graus de liberdade (Rencher, 1995). Para avaliar se a análise fatorial é adequada aos dados usa-se a “medida de adequação de amostragem de Kaiser-Meyer-Olkin (KMO)” ou measure of sampling adequacy (MSA), proposta por Kaiser em 1970. Define-se por: KMO / MSA = onde R = eQ= , = DR-1D, com D = . O KMO toma valores entre 0 e 1. Recomendam-se valores superiores a 0.8. Na tabela 1 encontra-se a escala de avaliação da análise fatorial efetuada (Maroco, 2007, Reis, 2001 e Timm, 2002). KMO / MSA AF 0.9 – 1 Muito boa 0.8 – 0.9 Boa 0.7 – 0.8 Média 0.6 – 0.7 Medíocre 0.5 -0.6 Má < 0.5 Inaceitável Tabela 1: Escala de avaliação da análise fatorial 27 2.3.2.7. Análise em Componentes Principais versus Análise Fatorial Na análise fatorial escrevem-se as variáveis como combinação linear dos fatores, enquanto na análise em componentes principais escrevem-se as componentes principais como combinação linear das variáveis, são procedimentos inversos. A análise em componentes principais permite explicar a maior parte da variabilidade total das variáveis, enquanto na análise fatorial pretende-se explicar as correlações entre as variáveis. No caso da ACP as componentes principais obtidas são únicas, no caso da AF os fatores dependem da rotação efetuada. No caso da ACP a solução obtida pode ser diferente se usada uma escala de medição diferente, enquanto na AF, há invariância de escala, ou seja, as soluções são invariantes com a mudança da escala de medição. Quando se aumenta o número de componentes retidas, as primeiras componentes principais mantêm-se inalteradas, enquanto na análise fatorial, os fatores podem tornarse bastante diferentes quando o número de fatores retidos é modificado. (Everitt, 2011 e Maroco, 2007). 28 2.3.3. Análise de Clusters 2.3.3.1. Introdução A análise de clusters é uma técnica de análise multivariada que tem como principal objetivo o agrupamento de elementos. Este agrupamento é efetuado de forma que elementos pertencentes ao mesmo grupo tenham características semelhantes e elementos de diferentes grupos tenham características dissemelhantes. Genericamente, parte-se de um conjunto com n observações e pretende-se formar k grupos com um menor número de observações. Para a construção desses grupos usam-se métodos hierárquicos ou métodos não hierárquicos. Entre os métodos hierárquicos, estes podem ser aglomerativos ou divisivos. Considere-se um conjunto de n observações e p variáveis dispostos na seguinte matriz de ordem n p, . O elemento representa o valor do objeto (indivíduo) i na variável j. Seguidamente constrói-se a matriz D de ordem n, dada por , em que dkl representa a distância entre os objetos k e l, com k, l = 1, …, n. Esta matriz designa-se por matriz de proximidade. Deste modo, o passo que se segue é escolher a medida de proximidade entre os indivíduos (Everitt et al, 2001, Maroco, 2007 e Reis, 1997). 29 2.3.3.2. Medidas de proximidade Para a construção da matriz de proximidade D, definida anteriormente, é necessário selecionar uma medida de proximidade, podendo ser uma medida de distância, de dissemelhança ou de semelhança. Segundo Everitt (2001), dois indivíduos estão próximos se a dissemelhança ou a distância entre eles é pequena ou, se a semelhança entre eles é grande. Uma medida de semelhança caracteriza-se pelas seguintes propriedades: 1) 0 1 2) =1 3) = onde denota a medida de semelhança entre os indivíduos i e j. Nos dados categóricos é habitual usar-se uma medida de semelhança. Uma medida de dissemelhança caracteriza-se pelas seguintes propriedades: 1) 0 2) =0 3) = onde denota a medida de dissemelhança entre os indivíduos i e j. Uma medida de distância caracteriza-se pelas seguintes propriedades: 1) 0 2) =0 3) = 4) onde (desigualdade triangular) denota a medida de distância entre os indivíduos i e j. 30 Apresentam-se em seguida algumas medidas de distância (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002). 1) Distância Euclidiana = 2) Quadrado da Distância Euclidiana 3) Distância de Manhattan ou distância absoluta ou City-Block Metric 4) Distância de Minkowski é uma generalização da distância Euclidiana e coincidem quando r = 2. 5) Distância de Mahalanobis onde S denota a matriz de covariâncias amostral. A medida de distância mais usada é a euclidiana. Em seguida, definem-se algumas medidas de dissemelhança. 1) Correlação de Pearson: com 31 onde e . 2) Separação Angular com . 2.3.3.3. Métodos de agregação Um dos objetivos da análise de clusters é reduzir a distância dentro dos grupos e aumentar a distância entre os grupos. Após selecionada a medida de proximidade e construída a respetiva matriz de proximidade, pretende-se saber quantos clusters se obtém. Assim sendo, para a determinação desses k grupos usam-se métodos hierárquicos ou métodos não hierárquicos. Quanto aos métodos hierárquicos, estes podem ser aglomerativos ou divisivos. Um processo diz-se aglomerativo se no final do processo se obtém um único cluster com todos os elementos e diz-se divisivo se no fim do processo existirem n clusters com um único elemento cada. Em qualquer dos métodos tem-se como objetivo a escolha da solução ótima, ou seja, número ótimo de clusters. Essa decisão fica a cargo do investigador. As etapas resultantes deste processo hierárquico (aglomerativo ou divisivo) podem ser representadas através de um gráfico – o dendograma (Everitt, 2001). Os métodos aglomerativos são os mais utilizados. 32 2.3.3.4. Critérios de agregação Após definidas as medidas de proximidade entre dois elementos, é necessário definir medidas de proximidade entre os clusters, ou seja, definir critérios de agregação entre os grupos (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002). 1) Complete Linkage ou método do vizinho mais afastado A distância entre dois grupos é medida como sendo a distância máxima entre um par de objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são mais compactos. 2) Single Linkage ou método do vizinho mais próximo A distância entre dois grupos é medida como sendo a distância mínima entre um par de objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são desequilibrados e desalinhados, em particular quando o número de dados é elevado. 3) Average Linkage A distância entre dois grupos é medida como sendo a média da distância entre todos os pares de objetos dos dois grupos. Utilizando este critério os clusters obtidos têm pequenas variâncias. Este é um critério intermédio entre o Complete Linkage e o Single Linkage, sendo relativamente robusto. 4) Critério do Centróide A distância entre dois grupos é medida como sendo a distância entre os seus centróides. Cada centróide corresponde à média ponderada dos elementos dos dois grupos. 33 5) Critério de Ward Neste método não são calculadas distâncias, formam-se os clusters de modo a minimizar a soma dos quadrados dos erros. No que se segue, apresentam-se as etapas do método hierárquico aglomerativo. Agrupamento hierárquico (método aglomerativo): Dada a matriz de proximidades D = [dij] de ordem n n, seguem-se os passos seguintes (Timm, 2002): 1. Começa-se com n clusters, cada um deles com um elemento. 2. Usando a matriz D, escolhemos os elementos mais semelhantes, digamos i e j. 3. Juntam-se esses dois elementos, i e j, formando um novo cluster (ij). Recalculam-se as distâncias entre o novo cluster (ij) e os elementos já existentes, usando o critério de agregação selecionado. Obtém-se uma nova matriz de proximidade de ordem (n – 1) 4. (n – 1). Repetem-se os passos 2 e 3, (n – 1) vezes. Nota: O agrupamento não hierárquico não será considerado neste trabalho. 34 Capítulo 3: Análise de dados hidrogeológicos O estudo baseia-se num conjunto de 48 amostras de água subterrânea recolhidas em furos, minas, nascentes e poços da cidade de Lisboa, conforme se pode visualizar na figura 2. Utilizam-se as análises químicas dessas 48 amostras de água e selecionam-se 13 variáveis referentes a parâmetros físico-químicos e espécies dissolvidas (aniões e catiões). Mais precisamente: Os parâmetros físico-químicos: o pH, a condutividade elétrica (C.E.) e o potencial redox (Eh); ), o cálcio (Ca2+), o sódio (Na+), o As espécies dissolvidas: o bicarbonato ( potássio (K+), o magnésio (Mg2+), o fluoreto ( ( ), o nitrato ( ) e o sulfato ( ), o cloreto ( ), o brometo ). As amostras de águas subterrâneas agora utilizadas não foram recolhidas especificamente para este trabalho, resultaram de recolhas para a concretização de unidades curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et al, 2008 e Sanches et al, 2006) e 2º ciclo de estudos em Geologia Aplicada e do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes, 2007). 35 Figura 2: Localização geográfica das amostras de água Como já foi referido anteriormente, a geologia de Lisboa é de grande complexidade, pelo que, para facilitar a análise estatística das amostras de água, as formações geológicas foram agrupadas, tendo em conta as suas semelhanças litológicas, da seguinte forma: Aluviões (1); Formação de Benfica (2); Complexo Vulcânico de Lisboa (CVL) (3); Calcários de Entrecampos (4); Areolas da Estefânia e Areias do Vale de Chelas (5) e Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres (6). Na figura 3 encontram-se as localizações das amostras recolhidas e a respetiva formação geológica aflorante. 36 Figura 3: Localização geográfica das amostras de água e respetivas formações geológicas 37 A partir da figura 3 pode construir-se a tabela 2 em que se indica a proveniência de cada amostra. Grupos de formações geológicas Amostras recolhidas (1) Aluviões Lis10/ Lis11/ Lis12/ Lis13/ Lis16 / Lis37 (2) Formação de Benfica Lis23/ Lis24/ Lis25/ Lis26/ Lis28/ Lis31/ Lis33/ Lis34/ Lis35/ Lis36/ Lis46 (3) CVL Lis27/ Lis29/ Lis30/ Lis32/ Lis44/ Lis47/ Lis48 (4) Calcários de Entrecampos Lis1/ Lis2/ Lis5/ Lis14/ Lis17/ Lis19 (5) Areolas da Estefânia e Areias Lis3/ Lis4/ Lis6/ Lis15/ Lis18/ Lis20/ Lis21/ do Vale de Chelas Lis38/ Lis39/ Lis40/ Lis41/ Lis45 (6) Argilas do Forno do Tijolo e Lis7/ Lis8/ Lis9/ Lis22/ Lis42/ Lis43 Argilas e Calcários dos Prazeres Tabela 2: Proveniência das amostras 38 3.1. Análise Exploratória dos Dados 3.1.1. Características amostrais Na tabela 3 encontram-se algumas características amostrais obtidas para as 48 amostras de água provenientes de 6 grupos de formações geológicas distintas: Variáveis Média pH C.E. Eh 7,53 1161,96 30,43 359,3 123,17 99,31 16,40 32,39 0,26 93,48 0,44 43,35 138,20 Ca2+ Na+ K+ Mg2+ Desvio Mediana Padrão 0,80 7,460 364,27 1174,500 151,13 34,250 111,55 374,000 49,39 114,500 52,83 89,450 23,21 8,550 20,45 28,650 0,22 0,185 43,72 88,100 0,83 0,180 48,13 30,800 111,88 113,700 1º Quartil 3º Quartil Mínimo Máximo 6,985 8,030 6,13 10,45 953,500 1411,500 395,00 2220,00 -102,100 187,000 -258,10 248,00 291,120 426,500 43,00 575,00 82,000 152,500 40,00 245,60 67,650 132,000 9,70 275,40 3,035 17,200 0,00 109,00 17,650 42,300 0,00 91,40 0,132 0,335 0,00 1,01 58,950 118,900 18,50 195,00 0,000 0,385 0,00 3,40 5,785 52,250 0,00 206,00 71,800 160,750 6,10 653,00 Tabela 3: Características amostrais das variáveis (amostra global) Da análise da tabela 3, podem-se observar algumas características amostrais para as 13 variáveis em estudo. O pH das amostras recolhidas varia entre 6.13 e 10.45, as amostras de água Lis4, Lis13, Lis5, Lis6 e Lis9 têm valores de pH 6.13, 6.20, 6.25, 6.26 e 10.45, respetivamente, que estão fora dos valores paramétricos, de acordo com o Decreto – Lei 306-2007 da qualidade da água para consumo humano (o pH deve estar compreendido entre 6.5 e 9, inclusive). A condutividade elétrica varia entre 395 e 2220 S/cm e a sua mediana (1174.5 S/cm) é superior à média (1161.96 S/cm). O Eh varia entre -258.1 e 248 mV e tem mediana (34.25 mV) superior à média (30.43 mV). Como existem valores Eh positivos e negativos a variabilidade em torno da média é muito grande, sendo o desvio padrão elevado (151.13 mV) e a média relativamente baixa (30.43 mV). As concentrações do ião bicarbonato variam entre 43 e 575 mg/L, apresentando uma mediana (374 mg/L) superior à média (359.3 mg/L). As concentrações do ião cálcio variam entre 40 e 245,6 mg/L, existindo um grande número de amostras de água com concentrações deste ião superiores ao valor paramétrico (100 mg/L), mais precisamente 29 amostras de água. As concentrações do ião sódio variam entre 9.7 e 275.4 mg/L e 39 apresentam uma grande variabilidade em torno da média, sendo o desvio padrão 52.83 mg/L. As amostras Lis21 e Lis31 apresentam concentrações, deste ião, de 275.4 e 217 mg/L, respetivamente, acima do valor paramétrico (200 mg/L). As concentrações do ião potássio variam entre 0 e 109 mg/L. O desvio padrão é elevado (23.21 mg/L), em comparação com a média (16.4 mg/L). Das 48 amostras, 19 apresentam concentrações do ião potássio acima do valor paramétrico (12 mg/L) e 20 amostras têm concentrações inferiores a 6 mg/L. Deste modo, a variabilidade em torno da média é muito grande. As concentrações do ião magnésio variam entre 0 e 91.4 mg/L. Nas amostras Lis22, Lis16, Lis20, Lis48, Lis47, Lis43 e Lis30 as concentrações deste ião são 91.4, 73.5, 69.5, 65.1, 65, 60.3 e 57.5 mg/L, respetivamente. Todas essas concentrações são superiores ao valor paramétrico (50 mg/L). As concentrações do ião fluoreto variam entre 0 e 1.01 mg/L. A variabilidade em torno da média é muito elevada, sendo a média de 0.26 mg/L e o desvio padrão de 0.22 mg/L. As concentrações do ião cloreto variam entre 18.5 e 195 mg/L. As concentrações do ião brometo variam entre 0 e 3.4 mg/L. Das 48 amostras, 40 apresentam concentrações deste ião inferior a 0.5 mg/L e em 17 dessas 40 amostras não se deteta a presença deste ião (0 mg/L). Desta forma, a variabilidade em torno da média é muito grande, sendo o desvio padrão de 0.83 mg/L e a média de 0.44mg/L. As concentrações do ião nitrato variam entre 0 e 206 mg/L. Das 48 amostras, 12 apresentam uma concentração superior ao valor paramétrico (50 mg/L). A variabilidade em relação à média é elevada, sendo a média e o desvio padrão 43.35 e 48.13 mg/L, respetivamente. As concentrações do ião sulfato variam entre 6.1 e 653 mg/L. Nas amostras Lis21, Lis9, Lis42 e Lis37 as concentrações deste ião são 653, 459.2, 329 e 271 mg/L, respetivamente, todas superiores ao valor paramétrico (250 mg/L). O desvio padrão muito grande (111.88 mg/L) é indicador de uma grande variabilidade em torno da média. Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são consideradas apropriadas para o consumo humano, embora fosse necessário averiguar se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da legislação que regula a qualidade das águas para o consumo humano. Tal como sugere a tabela 2, a amostra global das 48 amostras de água pode ser subdividida em 6 amostrais parciais, correspondendo a cada grupo de formações 40 geológicas. Desta forma, na tabela 4 encontram-se as características amostrais (média e desvio padrão) das 48 amostras de água separadas pelos grupos de formações geológicas a que pertencem. Por observação da tabela 4, pode afirmar-se que o pH médio nas Aluviões e nas Areolas da Estefânia e Areias do Vale de Chelas é praticamente igual, 7.39 e 7.38, respetivamente. A variabilidade em torno da média é inferior nas Areolas da Estefânia e Areias do Vale de Chelas. A maior média e o maior desvio padrão surgem no grupo de formações geológicas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, tomando os valores de 7.87 e de 1.49, respetivamente. Os Calcários de Entrecampos apresentam o menor pH médio de valor 7.2. O menor desvio padrão surge na Formação de Benfica, cujo valor é 0.32. Embora a média seja relativamente alta, cujo valor é 7.71. Quanto à condutividade elétrica, na Formação de Benfica e no CVL as médias são inferiores a 950 S/cm, enquanto nas restantes formações geológicas as médias ultrapassam os 1200 S/cm. A menor variabilidade em torno da média verifica-se no CVL, onde o desvio padrão é 131.79 S/cm e a maior variabilidade em torno da média ocorre nas Aluviões, onde o desvio padrão é 466.19 S/cm. Quanto ao Eh, a sua média é positiva na Formação de Benfica e no CVL, sendo 192.34 e 143.71 mV, respetivamente; a média é negativa nas restantes formações. Relativamente à variabilidade em torno da média é menor na Formação de Benfica e nos Calcários de Entrecampos, cujo desvio padrão é 42.34 mV e 41.59 mV, respetivamente. Quanto ao ião bicarbonato, verifica-se a maior variabilidade em torno da média nas Argilas e a menor no CVL, sendo o desvio padrão de 189.99 e 48.72 mg/L, respetivamente. A maior concentração média encontra-se nos Calcários de Entrecampos (415.17 mg/L) e a menor na Formação de Benfica (278.61 mg/L). Quanto ao ião de cálcio, observa-se que a maior concentração média é nas Aluviões (172.97 mg/L), enquanto as menores concentrações médias são na Formação de Benfica e no CVL, cujos valores são 88.15 e 80.86 mg/L, respetivamente. Também estas duas últimas apresentam a menor variabilidade em torno da média, uma vez que os seus desvios padrão são os menores, 15.88 mg/L no CVL e 29.21 mg/L na Formação de Benfica. Quanto ao ião sódio, a menor concentração média é no CVL (58.69 mg/L) e a maior é na Areolas da Estefânia e Areias do Vale de Chelas (123.58 mg/L). A menor 41 variabilidade em torno da média surge nos Calcários de Entrecampos, onde o desvio padrão é 21.72 mg/L. Quanto ao ião potássio, as suas concentrações médias tomam valores bastante diferentes, nomeadamente, as Aluviões e o CVL têm médias mais reduzidas (5.7 e 3.7 mg/L, respetivamente), enquanto os Calcários de Entrecampos e as Areolas da Estefânia e Areias do Vale de Chelas têm médias muito elevadas (27.35 e 33.54 mg/L, respetivamente). Para este ião, em todas as formações geológicas verifica-se uma grande variabilidade em torno da média, visível através do seu desvio padrão elevado, destacando as Areolas da Estefânia e Areias do Vale de Chelas com o maior desvio padrão (34.13 mg/L). Quanto ao ião magnésio, nas Aluviões a média não é muito elevada (28.63 mg/L), mas a variabilidade em torno da média é muito elevada, uma vez que o seu desvio padrão é 23.61 mg/L. No CVL a concentração média é a mais elevada (53.63 mg/L), mas a variabilidade em torno da média é a menor, uma vez que o desvio padrão é 10.04 mg/L. A menor média (21.20 mg/L) é nos Calcários de Entrecampos e a maior variabilidade em torno da média é nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, cujo desvio padrão é 29.20 mg/L. Quanto ao ião fluoreto, a menor concentração média (0.11 mg/L) surge no CVL, enquanto a maior concentração média (0.39 mg/L) surge nas Argilas. O mesmo se pode afirmar quanto à variabilidade em torno da média, pois o desvio padrão no CVL é 0.08 mg/L e nas Argilas é 0.33 mg/L. Os Calcários de Entrecampos e as Areolas da Estefânia e Areias do Vale de Chelas apresentam a mesma concentração média (0.31 mg/L), mas a variabilidade em torno da média é muito inferior nos Calcários de Entrecampos, uma vez que o desvio padrão é consideravelmente inferior, sendo 0.13 mg/L nos Calcários de Entrecampos e 0.30 mg/L nas Areolas da Estefânia e Areias do Vale de Chelas. Quanto ao ião cloreto, o CVL aparece como a formação geológica com a menor concentração média deste ião (61.16 mg/L). As Aluviões, as Areolas da Estefânia e Areias do Vale de Chelas e as Argilas aparecem com as maiores concentrações médias deste ião, em torno dos 100 mg/L, destacando as Aluviões cuja concentração média é a mais elevada (105.13 mg/L). A maior variabilidade em torno da média ocorre nas Aluviões e nas Argilas, onde os desvios padrão são 61.65 e 70.93 mg/L, respetivamente, em oposição à menor variabilidade que ocorre nos Calcários de Entrecampos, cujo desvio padrão é 18.12 mg/L. 42 Quanto ao ião brometo, a variabilidade em torno da média é bastante elevada, em particular nas Aluviões, nas Areolas da Estefânia e Areias do Vale de Chelas e nas Argilas, onde os desvios padrão tomam os valores de 1.23, de 1.06 e de 1.23 mg/L, respetivamente. As concentrações médias, deste ião, também são elevadas nestas formações geológicas, nas Aluviões é 0.85 mg/L, nas Areolas é 0.66 mg/L e nas Argilas é 0.82 mg/L. Nos Calcários de Entrecampos a concentração média é bem menor (0.14 mg/L), mas a variabilidade em torno da média é muito elevada (0.17 mg/L). O CVL aparece como a formação geológica que tem a menor concentração média deste ião, cujo valor é 0.05 mg/L. Quanto ao ião nitrato, as Argilas apresentam a menor concentração média (5.67 mg/L), por sua vez a variabilidade em torno da média é muito elevada (7.9 mg/L). A maior concentração média (79.72 mg/L) deste composto ocorre na Formação de Benfica. As Aluviões e as Areolas da Estefânia e Areias do Vale de Chelas apresentam concentrações médias próximas dos 50 mg/L e desvios padrão elevados. Quanto ao ião sulfato, a maior concentração média (223.7 mg/L) deste composto ocorre nas Argilas e a menor concentração média (71.73 mg/L) no CVL. A formação de Benfica e o CVL apresentam valores médios e desvios padrão semelhantes e baixos. 43 1 Média pH C.E. Eh Ca2+ Na+ K+ Mg2+ 7,39 1266,33 -76,15 360,33 172,97 78,88 5,70 28,63 0,32 105,13 0,85 49,02 171,15 2 Desvio Padrão 0,95 466,19 109,83 95,85 60,00 36,76 4,70 23,61 0,16 61,65 1,23 43,92 95,55 Média 7,71 934,45 192,34 278,61 88,15 94,32 10,08 25,15 0,18 93,77 0,18 79,72 81,53 Desvio Padrão 0,32 298,32 42,35 108,39 29,21 53,33 7,12 11,90 0,09 38,08 0,12 68,93 24,97 Formações geológicas 3 4 5 Desvio Desvio Média Média Média Padrão Padrão 7,59 0,34 7,20 0,80 7,38 844,71 131,79 1226,33 194,72 1333,92 143,71 108,16 -113,18 41,59 -27,44 382,12 48,72 415,17 137,02 378,25 80,86 15,88 124,00 38,40 141,28 58,69 24,38 108,15 21,72 123,58 3,70 5,60 27,35 29,56 33,54 53,63 10,04 21,20 12,76 27,48 0,11 0,08 0,31 0,13 0,31 61,16 22,58 87,90 18,12 103,98 0,05 0,05 0,14 0,17 0,66 18,90 20,50 30,43 14,48 46,76 71,73 26,02 116,57 30,58 180,53 6 Desvio Desvio Média Padrão Padrão 0,83 7,87 1,49 343,64 1436,50 314,94 133,30 -32,62 131,83 52,49 385,83 189,99 42,07 149,87 46,15 62,02 118,87 68,66 34,13 8,27 9,40 18,71 45,67 29,20 0,30 0,39 ,33 38,40 103,57 70,93 1,06 0,82 1,23 41,81 5,67 7,90 152,99 223,70 160,79 Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada grupo de formações geológica 44 3.1.2. Correlação linear de Pearson Na amostra global as correlações apresentam valores baixos, inferiores a 0.8 em módulo, veja-se o anexo 4. As tabelas da matriz de correlações entre as variáveis, em cada um dos grupos de formações geológicas, encontram-se em anexo (anexo 5 a 10). Nas Aluviões, apenas 7 pares de variáveis têm valores de correlação superiores a 0.8, salientando a condutividade elétrica com o sódio e o sódio com o cloreto que apresentam valores de correlações muito elevados. Deste modo, pode afirmar-se que amostras com menores concentrações de sódio têm menor condutividade elétrica e menores concentrações de cloreto, assim como amostras com maiores concentrações de sódio têm maior condutividade elétrica e maiores concentrações de cloreto. Na Formação de Benfica, apenas 4 pares de variáveis apresentam valores de correlação linear superior a 0.8. Existem 10 pares de variáveis cujos valores das correlações são inferiores a 0.8, em módulo, porém, significantes2. O cloreto com o sódio, com a condutividade elétrica e o com brometo e o magnésio com a condutividade elétrica. Assim sendo, nestas amostras, quanto maior for a concentração de cloreto, maior é a concentração de sódio e de brometo, bem como os níveis de condutividade elétrica. No Complexo Vulcânico de Lisboa existem 5 pares de variáveis com valores de correlação superiores a 0.8, em módulo, dos quais dois pares têm valores de correlação negativos. O Eh correlaciona-se negativamente com o cálcio e com o magnésio, ou seja, à medida que os valores de Eh aumentam as concentrações de cálcio e de magnésio diminuem. O sódio correlaciona-se positivamente com o bicarbonato e com o nitrato. Deste modo, amostras com pequenas (ou grandes) concentrações de sódio têm pequenas (ou grandes) concentrações de bicarbonato e de nitrato. Existe um par de variáveis com valor de correlação abaixo de 0.8, mas significante. Nos Calcários de Entrecampos existem 8 pares de variáveis com valores de correlação superiores a 0.8, em módulo. Desses valores, dois são negativos. O fluoreto correlaciona-se negativamente com a condutividade elétrica e com o magnésio. A 2 Uma correlação diz-se significante, se ao nível de significância 0.05 se rejeitar a hipótese nula no teste 45 condutividade elétrica e o magnésio correlacionam-se positivamente, tal como o nitrato com o sulfato, com o Eh, com o bicarbonato e com o cálcio. Nas Areolas da Estefânia e Areias do Vale de Chelas existem 4 pares de variáveis com valores de correlação maiores que 0.8. A condutividade elétrica correlaciona-se positivamente com o sódio e com o sulfato. Também existem 8 pares de variáveis com valores de correlações inferiores a 0.8, mas significantes. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres existem 8 pares de variáveis que têm valores de correlação superiores a 0.8, em módulo. Desses valores, quatro são negativos, nomeadamente, o pH e o bicarbonato, o bicarbonato com o potássio e com o nitrato e este último com o sódio, e quatro são positivos; o pH com o potássio e com o nitrato, a condutividade elétrica com o magnésio e o nitrato com o potássio. Mais à frente, na secção 3.1.3 (representações gráficas) será efetuada uma análise dos diagramas de dispersão para alguns pares de variáveis. 46 3.1.3. Representações gráficas Nas figuras que se seguem podem observar-se os diagramas em caixa de bigodes paralelos e os diagramas de dispersão. Na figura 4 encontram-se os diagramas em caixa de bigodes paralelos para cada variável (comparando por formação geológica) e na figura 5 encontram-se os diagramas em caixa de bigodes paralelos para cada formação geológica (comparando por variáveis). 47 Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando cada formação geológica Para o pH, a amostra de água Lis30 é considerada outlier severo superior do CVL, apesar de não ser o máximo da amostra global. Excluindo essa observação os valores do pH no CVL são muito próximos, como é visível no respetivo diagrama em caixa de bigodes. Em relação às Aluviões, Calcários de Entrecampos e Areolas da Estefânia e Areias do Vale de Chelas a variação dos valores do pH é muito similar. Nas Argilas, se excluir a amostra de água Lis9, cujo valor de pH é 10.45, também se encontra uma distribuição idêntica às anteriores. Para a condutividade elétrica, a amostra de água Lis21 é outlier moderado superior das Areolas da Estefânia e Areias do Vale de Chelas e também o maior valor da amostra global. As amostras de água do CVL são caracterizadas por apresentar baixa condutividade elétrica. 48 Para o Eh, a amostra de água Lis37 é outlier moderado superior das Aluviões e a amostra de água Lis46 é outlier severo inferior na Formação de Benfica, não sendo o máximo nem o mínimo da amostra global, respetivamente. As amostras de água recolhidas nas Aluviões caracterizam-se pelos valores de Eh negativos, com exceção da amostra de água Lis37 que apresenta valor positivo. Nas amostras da Formação de Benfica, se excluir o outlier, o Eh apresenta valores muito próximos e elevados, em relação às outras formações geológicas. Nas amostras do CVL os valores de Eh são maioritariamente positivos. Nas amostras dos Calcários de Entrecampos os valores de Eh são negativos. Nas amostras das Areolas e das Argilas o Eh apresenta valores, quer positivos, quer negativos. Quanto ao ião bicarbonato, as amostras de água Lis24 e Lis46 surgem como outliers da Formação de Benfica, o primeiro é severo superior e o segundo é moderado inferior. As amostras Lis44 e Lis47 aparecem como outliers do CVL, o primeiro é severo inferior e o segundo é moderado superior. Nas amostras de água do CVL, excluindo os outliers, as concentrações deste ião apresentam valores muito próximos. Nas amostras de água recolhidas nas outras formações geológicas a concentração deste ião apresenta uma maior disparidade de valores, destacando as Argilas pela elevada variabilidade. Quanto ao ião de cálcio, as amostras Lis24 e Lis47 são outliers moderados superiores da Formação de Benfica e do CVL, respetivamente. As amostras de águas do CVL caracterizam-se por baixas concentrações deste ião e pela pequena variabilidade relativamente às outras formações geológicas, enquanto as amostras das Aluviões caracterizam-se por concentrações mais elevadas deste ião. Quanto ao ião sódio, a amostra Lis31 representa um outlier moderado superior da Formação de Benfica e a amostra Lis21 é um outlier moderado superior das Argilas. As amostras do CVL caracterizam-se por menores concentrações deste ião, em relação às outras formações geológicas. Quanto ao ião potássio, as amostras Lis32, Lis14 e Lis9 representam outliers para as formações CVL, Calcários de Entrecampos e Argilas, respetivamente, sendo os dois primeiros severos superiores e o último moderado superior. Por observação do diagrama em caixa de bigodes constata-se que nenhum destes outliers é máximo na amostra global. É nas Areolas da Estefânia e Areias do Vale de Chelas que a concentração e a variabilidade são maiores. Sem considerar os outliers, as amostras do CVL e das Argilas apresentam concentrações deste ião muito baixas, bem como pequenas variabilidades. 49 Quanto ao ião magnésio, a amostra Lis16 é outlier moderado superior das Aluviões. As amostras de água das Areolas e das Argilas apresentam grande variabilidade. As amostras de água provenientes do CVL caracterizam-se por valores mais altos do ião magnésio. Quanto ao ião fluoreto, as amostras do CVL apresentam baixas concentrações deste ião, relativamente às restantes formações geológicas. As amostras de água das Areolas e das Argilas apresentam uma grande variabilidade e diagramas em caixa de bigodes idênticos. Quanto ao ião cloreto, a amostra Lis48 é outlier severo superior do CVL. As amostras do CVL caracterizam-se por baixas concentrações e pequena variabilidade. Nas amostras das Aluviões e das Argilas as concentrações deste ião e a variabilidade são grandes. Os diagramas em caixa de bigodes relativos às amostras de água da Formação de Benfica e dos Calcários de Entrecampos são idênticos. Quanto ao ião brometo, as amostras Lis13, Lis3 e Lis7 são outliers, respetivamente, das Aluviões, Areolas e Argilas, o primeiro é severo superior e os dois últimos são moderados superiores. As amostras do CVL, da Formação de Benfica e dos Calcários de Entrecampos apresentam baixas concentrações deste ião. Quanto ao ião nitrato, as amostras Lis45 e Lis9 são outliers nas Areolas e nas Argilas, respetivamente, o primeiro é moderado superior e o segundo é severo superior. As Argilas caracterizam-se por reduzidas concentrações deste ião. As amostras do CVL e dos Calcários de Entrecampos têm pequenas concentrações deste ião. As amostras da Formação de Benfica apresentam concentrações muito elevadas deste ião, bem como uma grande variabilidade. Quanto ao ião sulfato, as amostras Lis2 e Lis5 são outliers dos Calcários de Entrecampos, sendo o primeiro severo inferior e o segundo moderado superior. A amostra Lis21 é outlier severo superior das Areolas. As amostras da Formação de Benfica e do CVL caracterizam-se por baixas concentrações deste ião, enquanto as amostras das Argilas têm concentrações muito elevadas deste ião e com uma grande variabilidade. Nas amostras dos Calcários de Entrecampos, se excluir os outliers, a variabilidade é reduzida. 50 1 2 3 4 5 6 Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica, para cada ião 51 A análise dos diagramas em caixa de bigodes paralelos da figura 5 permite comparar as concentrações dos iões dissolvidos nas diferentes amostras de água, por cada formação geológica, para se compreender quais os iões que apresentam maiores concentrações e quais os iões que apresentam menores concentrações. É unânime afirmar que o ião bicarbonato apresenta as maiores concentrações, relativamente às concentrações dos outros iões, qualquer que seja a formação geológica, enquanto os iões fluoreto e brometo apresentam concentrações mais reduzidas, comparando com as concentrações dos demais iões dissolvidos nas amostras de água. As concentrações dos iões cálcio, sódio e cloreto também são altas, comparando com os restantes iões. Particularmente, em cada formação geológica, pode ser efetuada uma comparação de concentrações dos diferentes iões, para além do referido. Nas Aluviões os iões sulfato e nitrato apresentam altas concentrações, em oposição aos iões potássio e magnésio, cujas concentrações são inferiores. Na Formação de Benfica o ião nitrato apresenta elevadas concentrações, em oposição as concentrações dos iões potássio e magnésio são menores. No CVL o ião potássio apresenta baixas concentrações e o ião magnésio, comparativamente aos demais iões, apresenta concentrações mais altas, muito semelhantes às concentrações dos iões cálcio, sódio e cloreto. Ainda se pode observar a existência de reduzida variabilidade. Nos Calcários de Entrecampos as concentrações dos iões não são muito elevadas. Nas Areolas da Estefânia e Areias do Vale de Chelas os iões potássio e nitrato apresentam concentrações altas. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres as concentrações do ião sulfato são elevadas, em oposição às concentrações dos iões potássio e nitrato, que são menores. Nas representações gráficas seguintes pode observar-se a distribuição das amostras de água em cada formação geológica e para cada variável em estudo. Desta forma, a figura 6 contempla os diagramas de dispersão das observações reorganizadas (por formação geológica) versus cada uma das variáveis em estudo. 52 Argilas e Calcários dos Prazeres Argilas do Forno do Tijolo 53 Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma das variáveis em estudo À partida seria espectável que amostras de água provenientes da mesma formação geológica teriam idêntica composição química e amostras de água provenientes de diferentes formações geológicas teriam diferente composição química, permitindo a natural separação das amostras por cada um dos grupos de formações geológicas, ou por outras palavras, o natural agrupamento das amostras de água provenientes do mesmo grupo de formações geológicas. Ao analisar-se os 13 diagramas de dispersão, pode concluir-se que na maioria das variáveis observadas não existe esse agrupamento natural, ou essa separação natural, como seria esperado. Na figura 6, têm-se as distribuições das concentrações dos iões e 54 das características físico-químicas em cada amostra de água, para cada formação geológica, donde se pode observar a grande ou pequena dispersão, bem como formação ou não de grupos. Esta visualização pode trazer muitas informações, mas todas do ponto de vista univariado. Na secção seguinte (3.2.), procede-se à análise multivariada. Quanto ao pH, as amostras de água provenientes das Aluviões, dos Calcários de Entrecampos, das Areolas e das Argilas apresentam grande variabilidade, enquanto na Formação de Benfica e no CVL a variabilidade é inferior. Desta forma, o pH caracteriza estas duas últimas formações. Também é evidente a inexistência de grupos. Quanto à condutividade elétrica, as amostras de água apresentam grande variabilidade, exceto as provenientes do CVL e dos Calcários de Entrecampos. Não é visível uma natural separação dos elementos pelas formações geológicas. Quanto ao Eh, existem dois grupos, um com amostras de Eh positivo e outro com amostras de Eh negativo. O Eh permite caracterizar a Formação de Benfica e os Calcários de Entrecampos, uma vez que, nas amostras provenientes da Formação de Benfica o Eh é sempre positivo e nas amostras dos Calcários de Entrecampos é sempre negativo. Nas Argilas também existe uma separação. As amostras provenientes das Argilas do Forno do Tijolo têm Eh negativo e as amostras provenientes das Argilas e Calcários dos Prazeres têm Eh positivo, como se pode observar na figura 6 (diagrama relativo ao Eh). Nas Aluviões apenas a amostra Lis37 tem valor de Eh positivo (132.2 mV). No CVL todas as amostras apresentam valor positivo, com exceção das amostras Lis47 e Lis48 que apresentam os valores -19 mV e 0 mV, respetivamente. Quanto ao ião bicarbonato, a dispersão é elevada. As concentrações deste ião são normalmente altas, embora existam duas amostras com reduzidas concentrações deste ião, uma proveniente da Formação de Benfica e outra das Argilas. Para cada formação geológica a variabilidade é grande, o que não permite a caracterização das formações geológicas com este ião. Não é evidente a existência de grupos. Quanto ao ião cálcio, existe uma grande dispersão e a maioria das amostras de água têm concentrações elevadas deste ião. Ao observar a figura 6 (diagrama relativo ao cálcio) é visível o elevado número de amostras que têm concentração deste ião acima do valor paramétrico assinalado na representação gráfica. Apenas na Formação de Benfica e no CVL a maioria das amostras tem concentrações abaixo do valor paramétrico. Ainda de notar que no CVL a variabilidade é reduzida. Este ião não permite caracterizar as formações geológicas. 55 Quanto ao ião sódio, existe uma grande dispersão, mas apenas duas amostras têm concentrações elevadas. As amostras provenientes do CVL têm menores concentrações deste ião, comparativamente às amostras dos Calcários de Entrecampos. Também as amostras provenientes destas últimas formações geológicas têm menor variabilidade. Quanto ao ião potássio, existe uma grande dispersão e um grande número de amostras de água com concentrações superiores ao valor paramétrico (12 mg/L) assinalado na representação gráfica da figura 6 (diagrama relativo ao potássio). As concentrações do ião potássio nas amostras de água provenientes do CVL e das Aluviões são reduzidas e idênticas. Se excluir a amostra de água dos Calcários de Entrecampos com elevada concentração e considerar as restantes amostras dos Calcários de Entrecampos, as amostras da Formação de Benfica e as amostras das Argilas, estas têm dispersão idêntica. Nas Areolas da Estefânia e Areias do Vale de Chelas as concentrações e a variabilidade deste ião são elevadas. Quanto ao ião magnésio, existe grande dispersão, com exceção das amostras provenientes do CVL. Este ião não permite a caracterização das formações geológicas. Quanto ao ião fluoreto, as amostras de água apresentam grande variabilidade. As concentrações deste ião nas amostras provenientes do CVL são reduzidas. Nas Aluviões e nos Calcários de Entrecampos a distribuição é idêntica. As amostras provenientes das Areolas e Argilas apresentam grande variabilidade, onde duas amostras, uma das Areolas e outras das Argilas, têm elevadas concentrações deste ião. Quanto ao ião cloreto, a dispersão é grande, com exceção das amostras provenientes do CVL. Se excluir a amostra do CVL assinalada na figura 6 (diagrama relativo ao cloreto), a variabilidade no CVL é muito reduzida. Nas Aluviões e nas Argilas a variabilidade é muito grande e a distribuição é idêntica, o mesmo sucede com a Formação de Benfica e as Areolas, onde a variabilidade é grande e a distribuição é idêntica. Quanto ao ião brometo, a variabilidade é muito grande, resultado de três amostras (uma das Aluviões, uma das Areolas e uma das Argilas) com concentrações muito elevadas. No CVL a variabilidade é muito reduzida, bem como as concentrações deste ião. Na Formação de Benfica e nos Calcários de Entrecampos as concentrações deste ião e a variabilidade são baixas. Quanto ao ião nitrato, existe uma grande dispersão e um número considerável de amostras com concentração superior a 50 mg/L, como se pode observar na figura 6 (diagrama relativo ao nitrato). As amostras provenientes das Argilas apresentam 56 concentrações e variabilidade reduzidas. As amostras de água provenientes do CVL e dos Calcários de Entrecampos apresentam baixas concentrações deste ião (sempre abaixo dos 50 mg/L). Nas amostras das Aluviões, da Formação de Benfica e das Areolas a variabilidade é muito grande, deste modo existem amostras com baixas concentrações deste ião e outras com elevadas concentrações, o que não permite a caracterização destas amostras a partir deste ião. Quanto ao ião sulfato, a variabilidade é muito acentuada, mas este comportamento não é sempre o mesmo nas diferentes formações geológicas. Nas amostras da Formação de Benfica, do CVL e dos Calcários de Entrecampos a variabilidade é menor e as concentrações deste ião estão abaixo de 200 mg/L. Nas amostras provenientes das Areolas, se excluir a amostra assinalada na figura 6 (diagrama relativo ao sulfato), com concentração muito elevada (superior a 600 mg/L), as restantes amostras têm concentrações abaixo dos 200 mg/L. Nas Argilas a variabilidade é mais acentuada, as amostras, ora têm concentrações baixas, ora elevadas. Nas representações gráficas que se seguem estão as matrizes de diagramas de dispersão para alguns pares de variáveis, para cada formação geológica. Mais precisamente, na figura 7 encontram-se os diagramas de dispersão em matriz para as variáveis condutividade elétrica, cálcio, sódio e cloreto (consideradas duas a duas). Na figura 8, estão os diagramas de dispersão em matriz para as variáveis bicarbonato, cálcio e magnésio. Na figura 9, estão os diagramas de dispersão em matriz para as variáveis bicarbonato, cálcio e sulfato. Por último, na figura 10 encontram-se os diagramas de dispersão das variáveis nitrato e sulfato. Aluviões (1) Formação de Benfica (2) 57 CVL (3) Calcários de Entrecampos (4) Areolas da Estefânia e Areias do Vale Argilas do Forno do Tijolo e Argilas e de Chelas (5) Calcários dos Prazeres (6) Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as variáveis condutividade elétrica, cálcio, sódio e cloreto Ao observar-se a figura 7 para as variáveis consideradas, nas Aluviões é visível através dos diagramas de dispersão em matriz uma associação linear positiva entre os pares de variáveis. Essa associação é mais significativa para os pares condutividade elétrica / sódio, condutividade elétrica / cloreto e sódio / cloreto, onde os valores dos coeficientes de correlação de Pearson são 0.912, 0.814 e 0.910, respetivamente. No caso do cálcio / cloreto e cálcio / sódio essa associação seria mais significativa, se as observações assinaladas fossem excluídas. Na Formação de Benfica, pode observar-se, na figura 7, que a correlação é mais significativa para os pares condutividade elétrica / sódio, condutividade elétrica / cloreto e sódio / cloreto, onde os coeficientes de correlação de 58 Pearson tomam os valores 0.753, 0.809 e 0.884, respetivamente. Quanto ao par condutividade elétrica / cálcio essa associação é fraca, (0.522 é o valor do coeficiente de correlação de Pearson). Para os restantes pares de variáveis não existe uma associação linear. No CVL as associações entre pares de variáveis são mais significativos para os pares condutividade elétrica / cálcio e cálcio / sódio, cujos valores dos coeficientes de correlação de Pearson são 0.804 e 0.767, respetivamente. Para os restantes pares de variáveis a correlação é fraca e pouco significativa. Nos Calcários de Entrecampos pode observar-se, através da matriz dos diagramas de dispersão da figura 7 para as variáveis indicadas, que não existe qualquer associação linear entre as variáveis, uma vez que os pontos não estão alinhados sobre uma reta. Nas Areolas da Estefânia e Areias do Vale de Chelas as correlações são mais significantes para os pares de variáveis condutividade elétrica / cálcio, condutividade elétrica / sódio e condutividade elétrica / cloreto, cujos valores dos coeficientes de correlação de Pearson são 0.613, 0.927 e 0.649, respetivamente. Nos restantes pares de variáveis a associação é fraca. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres não existem correlações significantes. Aluviões Formação de Benfica CVL 59 Calcários de Entrecampos Areolas e Areias Argilas Figura 8: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato, cálcio e magnésio Na figura 8 apresentam-se os diagramas de dispersão em matriz, para cada formação geológica e para as variáveis bicarbonato, cálcio e magnésio. Nas Aluviões não é visível a existência de uma associação linear entre esses pares de variáveis, mas se excluir a observação assinalada (amostra Lis12), o valor do coeficiente de correlação de Pearson entre o bicarbonato / cálcio é igual a - 0.966. Neste caso, passa a existir uma forte associação linear negativa entre o bicarbonato e o cálcio, ou seja, à medida que as concentrações de bicarbonato aumentam, as concentrações de cálcio diminuem. Na Formação de Benfica é visível a existência de associação linear forte entre os pares de variáveis bicarbonato / cálcio e bicarbonato / magnésio, cujos valores dos coeficientes de correlação de Pearson são 0.758 e 0.743, respetivamente. No CVL não existe claramente associação linear entre os pares de variáveis, porém se excluir a observação assinalada (amostra Lis44) no diagrama de dispersão do par bicarbonato / cálcio a correlação passa a ser significativa, sendo o valor do coeficiente de correlação de Pearson 0.859. Nos Calcários de Entrecampos não existe uma associação linear entre os pares de variáveis. Nas Areolas da Estefânia e Areias do Vale de Chelas não existe uma associação linear entre os pares de variáveis, mas se eliminar a observação assinalada (amostra Lis20) no diagrama de dispersão para o par de variáveis cálcio / magnésio, o valor do coeficiente de correlação linear passa a ser 0.663. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres a associação linear entre as variáveis é nula. 60 Aluviões Formação de Benfica CVL Calcários de Entrecampos Areolas e Areias Argilas Figura 9: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato, cálcio e sulfato Na figura 9 apresentam-se os diagramas de dispersão em matriz, para as variáveis bicarbonato, cálcio e sulfato. Nas Aluviões existe apenas uma forte associação linear entre o par cálcio / sulfato, onde o valor do coeficiente de correlação de Pearson é 0.815, mas se excluir a observação assinalada (amostra Lis13), o valor do coeficiente de correlação de Pearson entre o bicarbonato e o sulfato passa a 0.907. Na Formação de Benfica apenas existe forte associação linear entre o bicarbonato e o cálcio, cujo valor do coeficiente de correlação de Pearson é 0.798. No CVL não existe associação linear entre os pares de variáveis considerados, mas se excluir a observação assinalada (amostra Lis44), o valor do coeficiente de correlação de Pearson entre o bicarbonato e o cálcio passa a ser 0.859. Nos Calcários de Entrecampos existe uma forte associação linear entre o bicarbonato e o sulfato, onde o valor do coeficiente de correlação de Pearson é 0.886. Nas Areolas da Estefânia e Areias do Vale de Chelas apenas existe associação linear entre as variáveis cálcio e sulfato, cujo valor do coeficiente de correlação de Pearson é 0.786. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres não há associação linear entre as variáveis consideradas. 61 Aluviões Formação de Benfica CVL Calcários de Entrecampos Areolas e Areias Argilas Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis nitrato e sulfato Na figura 10 estão representados os diagramas de dispersão para o par nitrato / sulfato, em cada formação geológica. A existência de associação linear significativa para este par de variáveis ocorre apenas nos Calcários de Entrecampos, onde o valor do coeficiente de correlação linear é 0.851. 62 3.2. Análise Multivariada 3.2.1. Análise em Componentes Principais Como já referido anteriormente, este estudo tem por base 48 amostras de água subterrânea e 13 variáveis correspondentes a espécies dissolvidas e características físico-químicas. Nesta etapa começa-se por efetuar uma análise em componentes principais com o objetivo principal: a redução da dimensionalidade. Mais precisamente, parte-se de um conjunto com 13 variáveis correlacionadas (moderadamente) e pretende-se encontrar um novo conjunto de variáveis não correlacionadas, as componentes principais. Estas são uma combinação linear das variáveis originais. Deste modo, um menor número destas variáveis poderá explicar uma percentagem significativa da variabilidade dos dados. Caso a explicação fosse total, teríamos de usar as 13 componentes principais e o estudo seria desnecessário. Em primeiro lugar são determinados os valores próprios da matriz de correlações amostral, como se pode observar na tabela 5. Componentes Valores próprios 1 4,095 2 2,024 3 1,706 4 1,328 5 1,256 6 0,648 7 0,548 8 0,476 9 0,299 10 0,245 11 0,176 12 0,152 13 0,048 Tabela 5: Valores próprios da matriz de correlações amostral 63 Em seguida, tem de se decidir o número de componentes a reter. Deste modo, usam-se três critérios (apresentados anteriormente). Critério 1: Proporção da variância explicada por cada componente principal Componentes Proporção de variância explicada Proporção de variância explicada acumulada 1 2 3 4 5 31,5 15,6 13,1 10,2 9,7 31,5 47,1 60,2 70,4 80,1 6 7 8 9 10 11 12 13 5,0 4,2 3,7 2,3 1,9 1,4 1,2 0,4 85,1 89,3 92,9 95,2 97,1 98,5 99,6 100,0 Tabela 6: Proporção de variância explicada por cada componente e proporção de variância acumulada explicada até à componente j. Na tabela 6 encontra-se calculada a proporção de variância explicada por cada uma das 13 componentes principais e a proporção de variância explicada acumulada até à jésima componente principal. A componente 1 explica 31.5% da variabilidade total. A componente 2 explica 15.6% da variabilidade total ainda não explicada pela componente1 e, assim por diante. Para a proporção de variância explicada ser superior a 80%, têm de se reter as 5 primeiras componentes principais. Critério 2: Critério de Kaiser Este critério, proposto por Kaiser em 1960, sugere que se devem reter as componentes principais cujos valores próprios sejam superiores a um. Na tabela 5 pode observar-se que os 5 primeiros valores próprios são maiores do que um. Deste modo, devem reter-se as 5 primeiras componentes principais. 64 Critério 3: Scree plot Este critério, proposto por Cattell em 1966, sugere que o número de componentes a reter deve ser aquele que antecede o momento em que o declive atenua, ou seja, quando os valores próprios forem próximos entre si e de zero. Scree plot 4,5 Valores próprios 4 3,5 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Número de componentes principais Figura 11: Scree plot (número de componentes principais versus valores próprios) Analisando a figura 11, o número de componentes a reter dever ser 5, uma vez que a partir desse momento os valores próprios estão muito próximos de zero. Com base nos critérios, devem reter-se as 5 primeiras componentes principais, a redução de dimensionalidade é de 13 para 5. 65 1 2 3 4 5 Soma dos quadrados das linhas -0,140 0,926 -0,499 0,447 0,706 0,730 -0,056 0,261 0,565 0,680 0,624 -0,063 0,700 0,691 0,184 0,653 0,155 0,151 0,180 -0,032 0,304 -0,562 0,470 -0,311 0,514 0,126 -0,101 0,010 0,052 0,480 -0,043 -0,042 -0,596 0,785 -0,145 -0,138 -0,141 -0,611 -0,235 0,266 -0,006 -0,256 0,128 0,594 -0,499 -0,014 -0,188 -0,158 -0,291 -0,364 -0,207 0,503 -0,449 0,108 -0,097 0,612 0,087 0,045 0,643 0,024 -0,286 -0,095 -0,234 0,179 -0,237 0,780 0,904 0,753 0,846 0,883 0,818 0,773 0,813 0,762 0,796 0,694 0,717 0,870 Componentes Principais pH C.E. Eh Ca2+ Na+ K+ Mg2+ Soma dos quadrados das colunas 4,095 2,024 1,706 1,328 1,256 Tabela 7: Matriz dos loadings das componentes principais Na tabela 7 encontram-se os loadings das componentes principais para cada uma das 13 variáveis. Para cada variável selecionou-se o maior loading, em valor absoluto, para compreender qual ou quais as variáveis mais importantes na formação de cada uma das 5 primeiras componentes (ver na tabela o sombreado mais escuro). Deste modo, para a primeira componente as variáveis que mais contribuíram para a sua formação foram: a condutividade elétrica, o cálcio, o sódio, o fluoreto, o cloreto, o brometo e o sulfato. Para a segunda componente principal foram o pH e o Eh. Para a terceira componente foram o magnésio e o nitrato. Para a quarta componente principal nenhum teve contribuição importante e para a quinta componente principal foram o bicarbonato e o potássio. Ainda se podem observar na tabela 7 (sombreado mais claro) os loadings maiores que 0.3 em valor absoluto. Assim sendo, todas as variáveis originais, exceto o potássio, são determinantes na formação das duas primeiras componentes. Na última linha da tabela 7 constam as somas dos quadrados dos elementos de cada coluna, que coincidem sempre com os valores próprios. Na última coluna da tabela 7 constam as somas dos quadrados dos elementos de cada linha, que representam as comunalidades, ou seja, a proporção de variância das variáveis originais que é explicada 66 pelas componentes retidas. O valor das comunalidades é superior a 0.694. Caso se considerassem todas as componentes principais a comunalidade de cada variável seria igual a 1, mas não se estaria a reduzir a dimensionalidade. Na figura 12 encontra-se a representação gráfica dos loadings das duas primeiras componentes. Figura 12: Representação gráfica dos loadings das duas primeiras componentes principais Analisando a figura 12, pode visualizar-se quais as variáveis que mais contribuíram para as duas primeiras componentes principais. Na tabela 7 essa análise tinha sido efetuada para as cinco primeiras componentes. O potássio não contribuiu para a formação das duas primeiras componentes. O bicarbonato e o magnésio têm uma pequena contribuição. Relativamente à componente 2, o fluoreto e o brometo estão em oposição à condutividade elétrica, cálcio, sódio, sulfato e cloreto. Em relação à componente 1, o Eh, o pH e o nitrato estão em oposição à condutividade elétrica, cálcio, sódio, sulfato e cloreto. Nas figuras 13 e 14 podem observar-se as representações gráficas dos scores para as duas primeiras componentes principais. No primeiro caso, a legenda refere-se o número da amostra a que pertencem, ou seja, 23 representa a amostra Lis23, por exemplo. No 67 segundo caso os indivíduos estão representados pela formação geológica a que pertencem. Figura 13: Representação gráfica dos scores (observações) das duas primeiras componentes principais Constata-se que as amostras Lis12 e Lis21 estão afastadas da nuvem de pontos. De um modo geral, a amostra Lis12 tem reduzidas concentrações na maioria dos iões, em oposição, a amostra Lis21 tem altas concentrações na maioria dos iões. É visível um grande grupo de elementos, essencialmente provenientes da Formação de Benfica, do CVL, das Areolas e das Argilas, como se pode observar na figura 14. Observam-se uns grupos mais pequenos (com menos elementos), essencialmente provenientes das Aluviões, dos Calcários, das Areolas e das Argilas. 68 Figura 14: Representação gráfica dos scores (formações geológicas) das duas primeiras componentes principais Nas figuras 15 e 16 estão representados os biplots3 dos loadings e dos scores das duas primeiras componentes principais. No primeiro caso, a legenda corresponde ao número da amostra e no segundo caso, a legenda corresponde às formações geológicas. Deste modo, pretende-se compreender qual ou quais os iões que caracterizam uma determinada formação geológica. Devido à complexa litologia de Lisboa não existe uma separação evidente e natural dos elementos (amostras) pelas seis formações geológicas. Existe uma separação em termos de localização geográfica, ou seja, amostras localmente mais próximas “aparentam” características semelhantes. Nas amostras de água provenientes da Formação de Benfica e do CVL, a proximidade não é apenas geográfica. Nas figuras 15 e 16 pode observar-se a proximidade destas amostras e também que, na componente 2 estas amostras são caracterizadas pelo pH, Eh e nitratos. As amostras das Aluviões são caracterizadas na componente 1 pelo fluoreto e pelo 3 Biplot é uma dupla representação gráfica, em que constam os loadings das variáveis, representados através dos vetores e os scores de cada observação, representados através de pontos. 69 cloreto. Quanto às restantes formações geológicas não é visível a caracterização, uma vez que existe uma maior dispersão. Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações) das duas primeiras componentes principais Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações geológicas) das duas primeiras componentes principais 70 3.2.2. Análise Fatorial Nesta secção irá efetuar-se uma análise fatorial que permita explicar as correlações existentes entre as variáveis, ou seja, parte-se de um conjunto de 13 variáveis e pretende-se encontrar um menor número de fatores que expliquem essas correlações. Por um lado pretende-se que a perda de informação seja a menor possível, por outro o número de fatores não pode ser muito elevado. Utiliza-se o método das componentes principais para a extração dos fatores e a rotação varimax para a rotação dos fatores. Começa-se pela determinação dos valores próprios da matriz de correlações. Esses valores próprios encontram-se na tabela 8. Fatores 1 2 3 4 5 6 7 8 9 10 11 12 13 Valores Próprios 4,039 1,885 1,692 1,528 1,078 0,776 0,533 0,498 0,417 0,248 0,176 0,100 0,030 Tabela 8: Valores próprios da matriz de correlações amostral Note-se que a matriz de correlações amostral usada é a mesma, tanto na análise em componentes principais, como na análise fatorial. O modelo matemático da análise em componentes principais é Y = AX (Y as componentes principais e X as variáveis originais), enquanto o modelo matemático da análise fatorial é Y = , ou seja, 71 Y = (Y as variáveis originais e f os fatores). Deste modo, há uma pequena diferença nos valores próprios. Na tabela 9 encontra-se a proporção de variância explicada pelos fatores. Fatores Proporção de variância explicada Proporção de variância explicada acumulada 1 2 3 4 5 6 7 8 9 10 11 12 13 31,1 14,5 13,0 11,8 8,3 6,0 4,1 3,8 3,2 1,9 1,4 0,8 0,2 31,1 45,6 58,6 70,3 78,6 84,6 88,7 92,5 95,7 97,6 99,0 99,8 100,0 Tabela 9: Proporção de variância explicada por cada fator e proporção de variância acumulada pelo fator j Pela análise das tabelas 8 e 9, os 5 primeiros fatores têm valores próprios superiores a um e a variância explicada é 78.6%. Deste modo, deve prosseguir-se a análise com os cinco fatores. Na tabela 10 encontram-se as comunalidades iniciais (com todos os fatores) e as extraídas (com 5 fatores). Observa-se que todas as comunalidades têm um valor alto. Deste modo, as variáveis são bem explicadas pelos fatores da análise fatorial. 72 Comunalidades Iniciais Extraídas pH 1,000 0,828 C.E. 1,000 0,933 Eh 1,000 0,734 1,000 0,860 2+ Ca 1,000 0,807 + Na 1,000 0,797 + K 1,000 0,677 2+ Mg 1,000 0,763 1,000 0,752 1,000 0,785 1,000 0,698 1,000 0,727 1,000 0,861 Tabela 10: Comunalidades iniciais e extraídas através do método das componentes principais Na tabela 11 encontram-se os loadings que permitem avaliar a correlação entre as variáveis e os fatores, assinalando os que têm um valor superior a 0.7, em módulo. pH C.E. Eh Ca2+ Na+ K+ Mg2+ 1 -0,146 0,932 -0,469 0,444 0,722 0,763 -0,002 0,307 0,626 0,642 0,509 -0,117 0,679 2 0,539 0,219 0,632 0,151 0,057 0,201 0,056 0,355 -0,532 0,540 -0,405 0,456 0,069 Fatores 3 0,466 0,008 -0,125 -0,628 0,252 -0,078 0,322 -0,664 0,179 -0,016 -0,059 0,409 0,498 4 -0,546 0,065 0,081 0,205 -0,149 0,226 0,669 -0,318 -0,050 0,126 0,235 0,579 -0,383 5 0,012 -0,111 0,304 -0,452 -0,445 0,344 -0,350 0,017 0,208 0,257 0,465 0,057 -0,033 Tabela 11: Matriz dos loadings (sem rotação dos fatores) 73 Por observação da tabela 11, apenas 3 loadings verificam essa condição. Logo, é necessário proceder à rotação dos fatores, através da rotação varimax. 1 0,644 -0,132 0,459 -0,354 -0,482 1 2 3 4 5 2 0,610 0,602 -0,047 0,160 0,488 3 0,381 -0,771 -0,120 0,352 0,348 4 0,248 0,090 -0,736 0,245 -0,573 5 -0,080 0,131 0,481 0,816 -0,283 Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação varimax Na tabela 12 encontra-se a matriz ortogonal obtida pelo método varimax, que é utilizada para obter a matriz dos loadings após rotação, que se pode visualizar na tabela 13. A matriz da tabela 13 é obtida pelo produto das matrizes das tabelas 11 e 12. A matriz dos loadings da tabela 13 permite uma melhor interpretação, uma vez que existe um maior número de loadings significativos (maiores que 0.7 em módulo). pH C.E. Eh Ca2+ Na+ K+ Mg2+ 1 0,236 0,605 -0,618 0,123 0,840 0,183 0,071 -0,050 0,473 0,166 0,047 -0,180 0,808 2 0,132 0,656 0,262 0,204 0,222 0,794 -0,046 0,389 0,146 0,862 0,333 0,304 0,354 Fatores 3 -0,716 0,170 -0,517 0,042 -0,006 0,344 0,031 -0,184 0,682 -0,036 0,758 -0,222 0,000 4 -0,471 0,325 -0,122 0,895 0,218 0,123 0,131 0,509 -0,156 0,103 -0,076 -0,180 -0,266 5 -0,143 0,043 0,040 -0,022 0,076 0,015 0,807 -0,562 -0,133 0,041 -0,062 0,721 -0,109 Tabela 13: Matriz dos loadings (após rotação varimax) Deste modo, o fator 1 está associado ao ião cálcio e o ião sulfato, o fator 2 está associado ao ião sódio e ao ião cloreto, o fator 3 está associado ao pH e ao ião brometo, 74 o fator 4 está associado ao ião bicarbonato e o fator 5 está associado ao potássio e ao ião nitrato (tabela 14). Fatores Variáveis 1 Cálcio e sulfato 2 Sódio e cloreto 3 pH e brometo 4 Bicarbonato 5 Potássio e nitrato Tabela 14: Designação dos fatores Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores Na figura 17 tem-se a representação gráfica dos loadings do fator 1 versus fator 2, quando se extraem 2 fatores. Estes dois fatores explicam apenas 45.6% da variação, o que é muito reduzido. 75 Na tabela 15 estão indicados o valor do KMO e o resultado do teste de esfericidade de Bartlett. Kaiser-Meyer-Olkin Measure of Sampling Adequacy Teste de esfericidade de Bartlett 0,478 Estatística de teste 348,578 Graus de liberdade 78 Valor p 0,000 Tabela 15: KMO e teste de esfericidade de Bartlett Deste modo, o valor do KMO é inferior a 0.5, pelo que a análise fatorial não é aplicável aos dados. O KMO é uma medida de adequação de amostragem e este baixo valor pode estar relacionado com a reduzida dimensão da amostra face ao número de variáveis. O teste de esfericidade de Bartlett permite rejeitar a hipótese da matriz de correlações ser igual à matriz identidade, uma vez que o valor p é reduzido, significa que as variáveis estão correlacionadas. O KMO é uma medida de adequação amostral global, enquanto o MSA é uma medida de adequação amostral individual, que permite avaliar a adequação de cada uma das variáveis para a análise fatorial. Para a análise fatorial ser boa ou muito boa, o MSA de cada variável deve ser superior a 0.8. Observando a tabela 16, nenhum é superior a 0.8, embora alguns se considerem aceitáveis (superiores a 0.5), nomeadamente, para a condutividade elétrica, o Eh, o fluoreto, o cloreto, o brometo e o sulfato. Se fossem utilizadas apenas essas variáveis o KMO aumentaria, mas muita informação era perdida. Deste modo, não se refaz a análise fatorial com essas variáveis. 76 Variáveis pH C.E. Eh Ca2+ Na+ K+ Mg2+ MSA 0,404 0,544 0,562 0,423 0,381 0,480 0,124 0,267 0,729 0,785 0,690 0,357 0,540 Tabela 16: Medida de adequação amostral para cada variável (MSA) 77 3.2.3. Análise de Clusters Nesta secção pretende-se reagrupar o conjunto de dados (amostras de água) de acordo com a sua composição química. O conjunto de dados, inicialmente, está subdividido em seis grupos (cada um dos grupos de formações geológicas) e pretende-se efetuar um novo agrupamento. Para determinar a distância entre dois indivíduos usa-se o quadrado da distância euclidiana e os critérios de agregação usados são: critério de Ward e critério do Complete Linkage. Numa primeira fase usam-se todas as variáveis e numa segunda fase usam-se as cinco primeiras componentes principais (os scores). Como as variáveis têm variâncias muito diferentes, usam-se as variáveis estandardizadas. Na figura 18 encontra-se o dendograma referente à análise de clusters para a amostra global, usando o critério de agregação de Ward. A amostra Lis21 encontra-se afastada das restantes não sendo incluída em nenhum cluster. Assim sendo, são visíveis 3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se, maioritariamente, amostras provenientes da Formação de Benfica e do CVL. A amostra Lis 24 da Formação de Benfica e Lis47 e Lis48 do CVL não pertencem a este cluster. Neste cluster não aparecem amostras provenientes dos Calcários de Entrecampos. No cluster2 apenas não existem amostras provenientes dos Calcários de Entrecampos. No cluster3 não existem amostras provenientes da Formação de Benfica e do CVL. Desta forma, pode afirmar-se que as amostras provenientes da Formação de Benfica e do CVL apresentam características distintas das outras formações geológicas, em particular dos Calcários de Entrecampos, pois não existem clusters que tenham simultaneamente amostras dessas formações. As amostras de água provenientes da Formação de Benfica e do CVL apresentam, entre si, características idênticas. Quanto às amostras provenientes das Aluviões, das Areolas e das Argilas estão presentes em todos os clusters. Observando a figura 19 pode dizer-se que as amostras que constituem o cluster3 estão geograficamente próximas, donde as suas características poderão ser idênticas. 78 cluster1 cluster2 cluster3 Figura 18: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Ward Figura 19: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Ward com as variáveis estandardizadas 79 Na figura 20 encontra-se o dendograma relativo à análise de clusters para a amostra global usando o critério de Complete Linkage (ou vizinho mais afastado). As amostras Lis9 e Lis21 não se inserem em nenhum dos clusters, uma vez que se encontram muito afastadas, o mesmo se tinha verificado anteriormente para a amostra Lis21. São visíveis 3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se as amostras provenientes da Formação de Benfica e do CVL, na sua maioria. De salientar que, apenas, as amostras Lis24 e Lis31 provenientes da Formação de Benfica não constam neste cluster. Este cluster, também não tem amostras provenientes dos Calcários de Entrecampos nem das Argilas. Nos cluster2 e cluster3 encontram-se amostras provenientes das restantes formações geológicas. Note-se que as amostras provenientes do CVL apenas se encontram no cluster1. As amostras provenientes dos Calcários de Entrecampos não pertencem ao mesmo cluster das amostras provenientes do CVL. cluster1 cluster2 cluster3 Figura 20: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Complete Linkage Na figura 21 encontra-se o mapa com a localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método Complete Linkage com as variáveis estandardizadas. 80 Figura 21: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Complete Linkage com as variáveis estandardizadas Analisando as figuras 18 e 20 pode concluir-se que em ambos os casos o cluster1 é mais uniforme, ou seja, é constituído por amostras provenientes de duas formações geológicas, que na sua maioria não tem representatividade nos outros dois clusters (cluster2 e cluster3). Comparando os mapas geológicos das figuras 19 e 21 conclui-se que no primeiro caso, os cluster2 e cluster3 não apresentam uma uniformidade de formações geológicas, mas apresentam uma uniformidade geográfica, contrariamente, no segundo caso, os cluster2 e cluster3 não apresentam uniformidade geográfica nem a nível das formações geológicas. Nestes dois primeiros casos, os clusters têm praticamente a mesma dimensão, variando entre 11 e 19 elementos. Numa segunda fase, usam-se os scores das cinco primeiras componentes principais em vez das treze variáveis. As 5 primeiras componentes principais retidas explicam 80.1% da variabilidade total, pelo que alguma informação será perdida. 81 Na figura 22 encontra-se o dendograma obtido da análise de clusters efetuada, quando se utilizam os scores das cinco primeiras componentes principais e o critério de Ward. Fazendo uma primeira análise poderia considerar-se a existência de 5 ou 6 clusters, mas observando a constituição de cada um deles, rapidamente se constata que não existe uniformidade quanto à proveniência das amostras. Deste modo, considera-se a divisão em 3 clusters: cluster1, cluster2 e cluster3, indicados na figura 22. O cluster1 tem na sua maioria, amostras provenientes do CVL, da Formação de Benfica e das Areolas, enquanto os cluster2 e cluster3 não apresentam essa homogeneidade de proveniência. Assim sendo, observa-se, mais uma vez que, o cluster1 tem maioritariamente amostras provenientes da Formação de Benfica e do CVL, não tendo amostras provenientes das Aluviões. No cluster1 existem 5 amostras provenientes das Areolas e uma dos Calcários de Entrecampos. Os cluster2 não apresenta amostras provenientes do CVL e cluster3 não apresenta amostras provenientes da Formação de Benfica nem do CVL. As amostras Lis 36 e Lis 46 da Formação de Benfica encontram-se no cluster2 e amostras Lis9 e Lis21 encontram-se no cluster3. Neste caso, a separação por formação geológica não é tão evidente. Os clusters obtidos não têm igual dimensão. O cluster1 tem 23 elementos e os clusters2 e cluster3 têm 12 e 13 elementos, respetivamente. 82 cluster1 cluster2 cluster3 Figura 22: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global usando o método de Ward Na figura 23 encontra-se o mapa com a localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método de Ward com as com os scores das 5 primeiras componentes principais. 83 Figura 23: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Ward com as 5 primeiras componentes principais Na figura 24 encontra-se o dendograma obtido para a análise de clusters efetuada, quando se utilizam os scores das 5 primeiras componentes principais e o critério de Complete Linkage. Observando o dendograma são visíveis 3 clusters: cluster1, cluster2 e cluster3. O número de elementos que constituem os clusters é muito diferente. O cluster1 tem 30 elementos, o cluster2 tem 5 elementos e o cluster3 tem 13 elementos. O cluster2 é o mais homogéneo, contendo maioritariamente amostras provenientes das Areolas, embora seja constituído apenas por cinco elementos. Os elementos do cluster3 provêm das Aluviões, dos Calcários de Entrecampos, das Areolas e das Argilas. As amostras provenientes da Formação de Benfica e do CVL pertencem todas ao cluster1, mas existem muitos elementos das outras formações geológicas. 84 cluster1 cluster2 cluster3 Figura 24: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global usando o método de Complete Linkage Na figura 25 encontra-se o mapa com a localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método de Complete Linkage com os scores das com as 5 primeiras componentes principais. Assim sendo, a separação dos elementos, quer pelas formações geológicas, quer pela localização geográfica não é evidente. Analisando os clusters obtidos nestes dois últimos casos, verifica-se que o cluster3 em ambos os casos é constituído pelos mesmos elementos. Os cluster1 e cluster2 diferem um pouco. 85 Figura 25: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de Complete Linkage com os scores das 5 primeiras componentes principais Após se terem analisado os 4 dendogramas, pode concluir-se que não existe uma clara separação por formação geológica, porém existe uma separação geográfica (visível quando se utiliza o método de Ward e as variáveis estandardizadas). Também é ponto comum a separação da Formação de Benfica e do CVL das restantes formações geológicas, o que reforça a proximidade destas duas formações geológicas. Em particular estas duas formações geológicas distanciam-se dos Calcários de Entrecampos. Existindo esta heterogeneidade dentro de cada formação geológica, realizou-se uma análise de clusters para as amostras provenientes de cada formação geológica. Os dendogramas obtidos usando o critério de Ward e as variáveis estandardizadas encontram-se na figura 26. 86 Aluviões (1) Formação de Benfica (2) CVL (3) Calcários (4) Areolas e Areias (5) Argilas (6) Figura 26: Dendogramas (observações) para cada formação geológica utilizando o método de Ward (variáveis estandardizadas) Observando cada um dos seis dendogramas existe uma clara formação de grupos dentro de cada formação geológica, o que permite concluir que existe alguma heterogeneidade dentro das formações geológicas. Nas Aluviões são visíveis dois grupos, em que o 87 primeiro contém as amostras Lis11, Lis16, Lis37 e Lis10 e o segundo contém as amostras Lis12 e Lis13. Na Formação de Benfica também existe alguma heterogeneidade, salientando a separação das amostras Lis36 e Lis46 das restantes. Essa separação também é geográfica (figura 1). No CVL as amostras Lis47 e Lis48 afastamse das restantes e curiosamente, quando se realizou a análise de clusters com a amostra global, usando as treze variáveis estandardizadas e o critério de Ward (ver figura 18) estas duas amostras não pertenciam ao cluster1, ou seja, apresentam uma menor proximidade em relação às restantes amostras dessa formação geológica. Nos Calcários de Entrecampos as amostras Lis1 e Lis2 afastam-se das restantes. Nas Areolas destacase o enorme afastamento da amostra Lis21 em relação às restantes. Esta amostra apresenta características bastante diferenciadas, quer em relação às restantes amostras das Areolas, quer em relação à amostra global. Em análises anteriores já tinha sido referida como outlier (ver diagrama em caixa de bigodes da figura 4), porém as restantes observações das Areolas apresentam algumas diferenças, sendo possível separar em dois grupos, um com as amostras Lis 39, Lis41, Lis45, Lis38, Lis40 e Lis20 e o outro com as amostras Lis3, Lis15, Lis4, Lis6 e Lis18. Nas Argilas a amostra Lis9 apresenta-se bastante afastada das demais amostras desta formação. As restantes amostras revelam alguma proximidade, em particular as amostras Lis22, Lis43 e Lis42. 88 Capítulo 4: Conclusões As amostras de água provenientes das Aluviões caracterizam-se por elevadas concentrações dos iões cálcio, cloreto e brometo, em relação aos restantes grupos de formações geológicas. As amostras de água provenientes da Formação de Benfica caracterizam-se por baixas concentrações do ião bicarbonato, elevadas concentrações do ião nitrato e elevado pH e Eh, em relação aos restantes grupos de formações geológicas. As amostras de água provenientes do CVL caracterizam-se por baixa condutividade elétrica, baixas concentrações dos iões cálcio, sódio, potássio, fluoreto, brometo e sulfato e elevadas concentrações do ião magnésio, em relação aos restantes grupos de formações geológicas. As amostras de água provenientes dos Calcários de Entrecampos caracterizam-se por baixo pH e Eh, baixas concentrações do ião magnésio e elevadas concentrações do ião bicarbonato, em relação aos restantes grupos de formações geológicas. As amostras de água provenientes das Areolas da Estefânia e Areias do Vale de Chelas caracterizam-se por elevadas concentrações dos iões sódio e potássio, em relação aos restantes grupos de formações geológicas. As amostras de água provenientes das Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres caracterizam-se por baixas concentrações do ião nitrato, elevada condutividade elétrica e elevadas concentrações dos iões sulfato e fluoreto, em relação aos restantes grupos de formações geológicas. Na tabela 17, encontra-se sintetizada toda a informação descrita anteriormente. pH C.E. Eh HCO3 Ca Na K Mg F Cl Br 1 --- --- --- --- E 2 E --- E B 3 --- B --- 4 B --- 5 --- 6 --- NO3 SO4 --- --- --- --- --- --- --- --- --- E --- --- --- E --- E --- --- B B B E B B B --- B B E --- --- --- B --- --- --- --- --- --- --- --- --- E E --- --- --- --- --- --- E --- --- --- --- --- --- E --- --- B E 1 – Aluviões, 2 – Formação de Benfica, 3 – CVL, 4 – Calcários de Entrecampos, 5 – Areolas da Estefânia e Areias do Vale de Chelas e 6 – Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres B – baixa concentração (ou baixo valor) e E – elevada concentração (ou elevado valor) Tabela 17: Caracterização dos grupos de formações geológicas 89 De um modo geral, pode concluir-se que as amostras provenientes do CVL e da Formação de Benfica caracterizam-se por baixas concentrações da maioria das espécies dissolvidas em relação aos restantes grupos de formações geológicas, embora no CVL essas concentrações sejam na sua maioria inferiores. Nestas duas formações geológicas existe um grande número de variáveis, cuja variabilidade em torno da média é reduzida quando comparada com a variabilidade das variáveis nos outros grupos de formações geológicas. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, em oposição, a maioria das variáveis apresenta uma grande variabilidade. Na tabela 18 encontram-se indicados os outliers severos e moderados, por cada grupo de formações geológicas e para cada variável em estudo. Existem 25 outliers, mas apenas, 4 desses outliers são máximos (ou mínimos) na amostra global. 1 pH C.E. Eh 5 6 Lis21 Lis37 2+ Ca Na+ K+ Mg2+ 2 Formações Geológicas 3 4 Lis30 Lis46 Lis24/Lis46 Lis24 Lis31 Lis44/Lis47 Lis47 Lis21 Lis32 Lis14 Lis9 Lis16 Lis48 Lis13 Lis2/Lis5 Lis3 Lis45 Lis21 Lis7 Lis9 Legenda: Outlier severo superior Outlier severo inferior Outlier moderado superior Outlier moderado inferior Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por cada variável 90 Pode concluir-se que as amostras de água provenientes do CVL têm um maior número de outliers, em particular outliers severos, enquanto nos outros grupos de formações geológicas o número de outliers é menor. As amostras de água Lis9 e Lis21 aparecem algumas vezes como outliers. A amostra Lis21 caracteriza-se por valores elevados em algumas variáveis, nomeadamente na condutividade elétrica, cálcio, sódio, fluoreto, brometo e sulfato. A amostra Lis12 caracteriza-se por baixos valores em algumas variáveis, nomeadamente, na condutividade elétrica, Eh, bicarbonato, sódio, cloreto, nitrato e sulfato. A amostra Lis9, numas vezes surge com valores elevados (pH e sulfato) e, noutras vezes com valores baixos (bicarbonato, sódio, magnésio e cloreto), com se pode ver na tabela do anexo 3. Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são consideradas apropriadas para o consumo humano, embora fosse necessário averiguar se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da legislação que regula a qualidade das águas para o consumo humano. Com o intuito de reduzir a dimensionalidade foi efetuada uma análise em componentes principais. Nesta análise transformou-se um conjunto de 13 variáveis correlacionadas num conjunto de 5 variáveis não correlacionadas: as componentes principais. Estas permitiram descrever a variabilidade dos dados, usando um menor número de variáveis e perdendo a menor informação possível. Para que a proporção de variância explicada fosse superior 80% eram necessárias 5 componentes principais. A primeira componente principal explicava 31.5% da variabilidade total e a segunda componente principal explicava 15.6% da variabilidade total, ainda não explicada. Assim sendo, as duas primeiras componentes principais explicavam menos de 50% da variabilidade total. As variáveis em estudo são bem descritas pelas 5 componentes retidas, com exceção das variáveis brometo e nitrato, uma vez que as suas comunalidades são inferiores a 0.75. Quanto à análise fatorial, procedeu-se à validação do modelo obtido e concluiu-se que, apesar da matriz de correlações ser diferente da matriz identidade, a análise fatorial foi considerada não aplicável aos dados 91 Com o objetivo de reagrupar as amostras de água de acordo com a sua composição química, efetuou-se uma análise de clusters. Com esta análise pretendia-se formar novos grupos (os clusters), de modo que elementos do mesmo cluster tivessem características idênticas e elementos de clusters diferentes tivessem características diferentes. Deste modo, a análise foi dividida em duas partes: na primeira parte utilizaram-se todas as variáveis (estandardizadas) em estudo e na segunda parte utilizaram-se os scores das 5 primeiras componentes principais. Em ambas as situações foram obtidos 3 clusters, que se designaram por: cluster1, cluster2 e cluster3. Analisando os dendogramas e os mapas das localizações geográficas, concluiu-se que as amostras de água provenientes da Formação de Benfica e do CVL pertenciam, maioritariamente, ao cluster1 e não tinham representatividade nos outros dois clusters. Também se observou que as amostras provenientes dos Calcários de Entrecampos não pertenciam ao cluster1. Assim sendo, concluiu-se que as amostras de água provenientes da Formação de Benfica e do CVL, tinham características idênticas entre si, ou seja, tinham idêntica composição química. Quando comparadas as amostras, provenientes da Formação de Benfica e do CVL com os restantes grupos de formações geológicas era notória uma diferenciação. Em particular, as amostras de água provenientes dos Calcários de Entrecampos tinham composição química bastante diferente. Quando se observou a constituição dos clusters, de um modo geral, os clusters que continham as amostras de água provenientes da Formação de Benfica e do CVL não tinham amostras de água provenientes dos Calcários de Entrecampos. Os outros dois clusters eram constituídos, maioritariamente, por amostras de água provenientes das Aluviões, dos Calcários de Entrecampos, das Areolas da Estefânia e Areias do Vale de Chelas e das Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres. Quando se analisou o mapa das formações geológicas era visível uma proximidade geográfica das amostras de água que constituíam o cluster3. Foi efetuada uma análise de clusters para cada grupo de formações geológicas, obtendose os seis dendogramas respetivos. Nas Aluviões, as amostras Lis12 e Lis13 apresentavam uma diferenciação das restantes amostras dessa formação. A amostra Lis12 era caracterizada por baixas concentrações de espécies dissolvidas. Na Formação de Benfica as amostras Lis36 e Lis46 apresentavam características que as separavam das restantes amostras. Essa separação também é geográfica. No CVL as amostras Lis47 e Lis48 apresentavam diferente composição química das restantes amostras do CVL. Nos Calcários de Entrecampos as amostras Lis1 e Lis2 também tinham uma 92 diferenciação. Nas Areolas da Estefânia e Areias do Vale de Chelas, a amostra Lis21 apresentava características muito diferentes, mais precisamente, era uma amostra cujas concentrações dos iões eram bastante elevadas. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, a amostra Lis9 também apresentava uma diferenciação em relação às restantes amostras deste grupo. De um modo geral, e ao contrário do que se poderia esperar, as amostras de água provenientes do mesmo grupo de formações geológicas não tinham idêntica composição química. Desta forma, a sua caracterização era muito complexa. Quando se separou o estudo por formação geológica foi visível essa heterogeneidade. Ao realizar a análise exploratória verificou-se que existia, para a maioria das variáveis, uma grande variabilidade, com exceção da Formação de Benfica e do CVL, onde as variáveis apresentavam menor variabilidade e, consequentemente, maior homogeneidade na composição química. 93 94 Considerações Finais O principal objetivo do estudo não foi conseguido, nomeadamente, a caracterização de cada grupo de formações geológicas através da análise das concentrações das espécies químicas dissolvidas nas águas subterrâneas e dos parâmetros físico-químicos considerados. Pretendia-se efetuar uma análise fatorial com o intuito de encontrar um conjunto de novas variáveis, não correlacionadas, não observadas e em menor número, que explicassem as correlações existentes entre as variáveis, o que não se verificou. A reduzida dimensão da amostra impediu a realização de uma análise fatorial com os dados de cada formação geológica. Segundo (Everitt, 2011), a dimensão da amostra deveria ser, no mínimo, na proporção de 5 para 1 (5 observações para cada variável considerada), o que não se verificou nos dados analisados. Tal como já foi referido anteriormente, a amostra não foi recolhida especificamente para este trabalho, resultou de um conjunto de amostras que tinham sido recolhidas para a elaboração de outros trabalhos. Em termos temporais, também não foram recolhidas no mesmo período. A recolha decorreu entre os anos de 2006 e 2009. Sendo a água um recurso natural e vital para a sobrevivência da espécie humana, todos os estudos que se realizem serão de extrema importância. Para que as conclusões obtidas sejam mais relevantes, o primeiro aspeto a ter em consideração será a seleção da amostra. Sendo a litologia da cidade de Lisboa tão complexa, a amostra global deverá ter uma dimensão elevada, bem como cada uma das amostras parciais (por formação geológica). 95 96 Bibliografia [1] Afifi, A. e Clark, V., (1996), Computer – Aided Multivariate Analysis, Chapman e Hall, Londres, 3ª edição. [2] Almeida, C.; Mendonça, J.J.L.; Jesus, M.R.; Gomes, A.J., (2000), Sistemas Aquíferos de Portugal Continental. Instituto da Água. pp 661. [3] Almeida, I.M. (1991), Características geotécnicas dos solos de Lisboa. Dissertação apresentada à Universidade de Lisboa para obtenção do grau de doutor em Geologia, na especialidade de Geotecnia. FCUL, Lisboa. pp 485. [4] Anderson, T., (2003), An introduction to multivariate statistical analysis, Wiley, Nova Jérsia. [5] Arabie, P. e Hubert, LJ., (1995), Clustering from the perspective of combinatorial data analysis. In Recent Advances in Descriptive Multivariate Analysis, p.1 – 13, Oxford Science Publications, Nova Iorque. [6] Bargmann, R., (1969), Exploratory techniques involving artificial variables. In Multivariate Analysis – Volume II, p.567 – 580, Academia Press, Nova Iorque. [7] Caria, C., Oliveira, J., Henriques, J., Vasconcelos, M., Gonçalves, V., (2009), Introdução ao Estudo Hidrogeológico da Sub-Bacia Hidrográfica de Alcântara – Lisboa. Relatório de Projecto da Licenciatura em Geologia Aplicada e do Ambiente. FCUL. Lisboa. 110 pp. [8] Cattell, R., (1966), The scree test for the number of factos, Multivariate Behavioral Research, p. 245-276 in http://dx.doi.org/10.1207/s15327906mbr 0102_10 consultado a 27 de julho de 2011. [9] Chatfield, C. e Collins, A. J., (1980), Introduction to Multivariate Analysis, Science Paperbacks, Londres. [10] David, J., (1973), Statistics and data analysis in Geology, Wiley, Canada. [11] Everitt, B. e Hothorn, T, (2011), An Introduction to Applied Multivariate Analysis with R, Springer, Nova Iorque. [12] Everitt, B., Landau, S. e Leese, M., (2001), Cluster Analysis, Arnold, Londres. [13] Flury, B.D., (1995), Developments in principal component analysis. In Recent Advances in Descriptive Multivariate Analysis, p.14 – 33, Oxford Science Publications, Nova Iorque. 97 [14] Flury, B.D., (1997), A first course in Multivariate Analysis, Springer, Nova Iorque. [15] Gnanadesikan, R. e Wilk, M.B., (1969), Data Analysis Methods in Multivariate Statistical Analysis. In Multivariate Analysis – Volume II, p.593 – 638, Academia Press, Nova Iorque. [16] Gnanadesikan, R., (1997), Methods for Statistical Data Analysis of Multivariate Observations, Wiley, 2ª edição, Nova Iorque. [17] Gnanadesikan, R., (2000), Cluster Analysis: an overview of aims, aids and challenges. In A Estatística em Movimento Actas do VIII Congresso Anual da Sociedade Portuguesa da Estatística, p. 39 – 57, Edições SPE, Lisboa. [18] Harman, H., (1976), Modern Factor Analysis, The University of Chicago Press, 3ªedição, Chicago. [19] Hotelling, H., (1933), Simplified Calculation of Principal Components, Psychometrika, vol. 1, No 1, p.27-35. [20] http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in +Factor+Analysis, consultado em 25 de setembro de 2013 [21] Jackson, J., (2003), A User’s Guide to Principal Components, Wiley, Nova Jérsia. [22] Jobson, J., (1992), Applied Multivariate Data Analysis, Volume II – Categorical and Multivariate methods, Springer, Nova Iorque. [23] Johnson, D., (1998), Applied Multivariate Methods for Data Analysts, Duxbury Press, California. [24] Jolliffe, I.T., (1986), Principal Component Analysis, Springer, Nova Iorque. [25] Kendall, M., (1980), Multivariate Analysis, Charles Griffin, Londres. [26] Krzanowski, W.J., (2003), Principles of Multivariate Analysis, Oxford, Nova Iorque. [27] Lopes, P., (2007), Avaliação Quantitativa e Qualitativa das Águas Subterrâneas da Área Urbana do Lumiar. Dissertação apresentada à Universidade Técnica de Lisboa para obtenção do grau de Mestre em Engenharia do Ambiente. Universidade Técnica de Lisboa, Instituto Superior Técnico. Lisboa, 98 pp. [28] Manca, F., Ferreira, H., Silva, J., Francisco, L., Gonzalez, V., (2008), Estudo Hidrogeológico das freguesias de São Domingues de Benfica e Nossa 98 Senhora de Fátima – Lisboa. Relatório de Projeto da Licenciatura em Geologia Aplicada e do Ambiente. FCUL. Lisboa. 153 pp e anexos. [29] Mardia, K., Kent, J. e Bibby, J., (1979), Multivariate Analysis, Academia Press, Londres. [30] Maroco, J., (2007), Análise Estatística com utilização do SPSS, Edições Sílabo, Lisboa. [31] Maxwell, A.E., (1977), Multivariate Analysis in Behavioural Research, Chapman e Hall, Nova Iorque. [32] McGarigal, K., Cushman, S. e Stafford, S., (2000), Multivariate Statistics for Wildlife and Ecology Research, Springer, Nova Iorque. [33] Mckillup, S. e Dyar, M., (2010), Geostatistics Explained An Introduction guide for Earth Scientists, Cambridge, Cambridge. [34] Monteiro, A., (2001), Álgebra Linear e Geometria Analítica, McGraw-Hill, Amadora. [35] Morrison, D., (1990), Multivariate Statistical Methods, McGraw-Hill, 3ªedição, Singapura. [36] Murteira, B et al, (2007), Introdução à Estatística, 2ª edição, McGraw-Hill, Lisboa. [37] Okamoto, M., (1969), Optimality of Principal Components. In Multivariate Analysis – Volume II, p.673 – 685, Academia Press, Nova Iorque. [38] Oliveira, M., (2010), Estudo Hidrogeológico da Sub Bacia Hidrográfica de Alcântara-Lisboa. Dissertação para obtenção do grau de Mestre em Geologia Aplicada, na especialidade de Hidrogeologia. Faculdade de Ciências da Universidade de Lisboa, Lisboa, 209 p. [39] Pais, J., Moniz, C., Cabral, J., Cardoso, J. L., Legoinha, P., Machado, S., Morais, M.A., Lourenço C., Ribeiro, M.L., Henriques, P., Falé, P., (2006), Carta Geológica de Portugal na escala 1: 50.000. Notícia Explicativa da Folha 34-D (Lisboa). Serv. Geol. Portugal, Lisboa. pp 74. [40] Pestana, D. e Velosa, F., (2002), Introdução à Probabilidade e à Estatística – Volume I, Fundação Calouste Gulbenkian, Lisboa. [41] Reis, E., (1997), Estatística Multivariada Aplicada, Edições Sílabo, Lisboa. [42] Rencher, A.,(1995), Methods of Multivariate Analysis, Wiley, Canada. [43] Sanches, F., Marques, J., Latas P., Cardoso S., (2006), Breve estudo hidrogeológico da zona de Telheiras-Lisboa. Relatório de Projeto da 99 Licenciatura em Geologia Aplicada e do Ambiente. FCUL. Lisboa. 88 pp. e anexos. [44] Searle, S., (1982), Matrix Algebra useful for Statistics, Wiley, Nova Iorque. [45] Sharma, S., (1996), Applied Multivariate Techniques, Wiley, Nova Iorque. [46] Srivastava, M.S. & Carter, E.M., (1983), An Introduction to Applied Multivariate Statistics, North Holland, Nova Iorque. [47] Srivastava, M.S., (2002), Methods of Multivariate Statistics, Wiley, Nova Iorque. [48] Stone, J., (2004), Independent Component Analysis – A tutorial introduction, Londres. [49] Timm, N. H.,(2002), Applied Multivariate Analysis, Springer, Nova Iorque. [50] Wackernagel, H., (1995), Multivariate Geostatistics, Springer, Nova Iorque. [51] Diário da República nº 164, série I - Decreto-Lei nº306/2007 de 27 de Agosto de 2007, p.5747-5765. 100 Anexos 101 102 Nova Ref Lis1 Lis2 Lis3 Lis4 Lis5 Lis6 Lis7 Lis8 Lis9 Lis10 Lis11 Lis12 Lis13 Lis14 Lis15 Lis16 Lis17 Lis18 Lis19 Lis20 Lis21 Lis22 Lis23 Lis24 Lis25 Formação pH C.E. Eh Geológica mic.zim mV 4 poço 6,85 982 -112 4 poço 7,11 1025 -174 5 poço 6,50 1273 -115 5 poço 6,13 1543 -127 4 poço 6,25 1356 -86 5 poço 6,26 1067 -258 6 poço 6,70 1353 -84 6 poço 6,61 1403 -170 6 poço 10,45 930 -125 1 mina 7,17 1580 -135 1 poço 8,52 1100 -92 1 poço 6,60 447 -183 1 poço 6,20 1236 -116 4 poço 6,65 1492 -153 5 poço 6,59 1452 -146 1 poço 8,44 1762 -62,9 4 mina 8,31 1270 -74,7 5 nascente 8,16 1165 -58,9 4 nascente 8,00 1233 -79,4 5 poço 8,16 1436 -91,7 5 poço 8,31 2220 -90,2 6 poço 8,59 1871 -81 1028 172 2 poço 7,87 1184 188 2 poço 7,19 2 poço 8,05 1154 197 Tipo mg/L 298 210 316 384 575 322 372 472 43 283 401 214 482 470 376 401 426 334 512 427 318 333 233 529,5 219,6 Ca2+ mg/L 85,6 74,4 104 151 126 126 75,2 204 140 246 192 79,2 129 130 131 179 154 165 174 96 240 144 106 150 84 Na+ mg/L 100 138 167 178 133 98,2 140 60,5 9,7 74,9 62 19,4 84 99 123 122 89,6 78,7 89,3 114,7 275,4 147 72,9 71,3 132 K+ Mg2+ mg/L mg/L mg/L mg/L 25,2 0,0 0,44 64,5 12,2 14,3 0,47 108,4 25,9 15,2 0,62 90,2 8,2 33,9 0,19 87,2 13,5 27,4 0,33 94,6 5,6 16,0 0,17 52,6 9,4 43,3 0,53 123,4 1,1 42,3 1,00 25,7 26 3,4 0,11 32,4 1,6 9,1 0,57 100 2,9 17,0 0,15 90,3 8,9 13,6 0,42 18,5 13,8 33,2 0,34 72,7 85,8 37,4 0,14 89 76,6 37,7 0,53 96 3,7 73,5 0,25 158,3 4,9 24,5 0,21 103 8,4 18,3 0,49 86,4 22,5 23,6 0,28 67,9 2,7 69,5 0,27 128,5 9,6 41,3 1,01 157 8,7 91,4 0,21 170,2 16,6 25,5 0,15 71,8 3,17 42,2 0,12 81,1 23,3 19,9 0,27 117,8 mg/L mg/L mg/L 0,00 21,4 115,4 0,00 6,9 57,8 3,40 44,9 162 0,45 13,9 158 0,40 39,6 147 0,17 29,3 82,9 3,20 1,6 37,7 0,27 5,2 243 0,00 21,4 459,2 0,20 78 176 0,44 56,7 225,4 0,00 0,44 6,1 3,30 19,4 122 0,00 29,8 127 1,40 55 142 0,32 21,6 226,4 0,23 38 127,3 0,74 42,7 175,3 0,19 46,9 124,9 0,00 4,45 159,5 1,81 6,05 653 0,37 2,49 216 0,08 206 52,9 0,21 38,5 70 0,22 119,5 123 103 Lis26 Lis27 Lis28 Lis29 Lis30 Lis31 Lis32 Lis33 Lis34 Lis35 Lis36 Lis37 Lis38 Lis39 Lis40 Lis41 Lis42 Lis43 Lis44 Lis45 Lis46 Lis47 Lis48 poço poço poço furo mina poço poço poço poço poço poço poço poço mina poço poço poço poço nascente poço poço nascente nascente 2 3 2 3 3 2 3 2 2 2 2 1 5 5 5 5 6 6 3 5 2 3 3 7,92 7,43 7,86 7,44 8,30 7,98 7,58 7,35 7,39 7,88 7,32 7,38 7,31 8,19 7,32 8,20 6,86 8,01 7,51 7,48 7,98 7,25 7,60 1289 944 730 734 728 1244 802 834 963 975 483 1473 1273 892 1225 996 1420 1642 707 1465 395 993 1005 202 200 227 226 165 203 248 204 230 222 195,1 132,2 101,9 163,5 98,2 125,5 131 133,7 186 68,5 75,6 -19 0 300,1 401,4 251,3 367,2 386,7 361,1 396,5 284,3 295,2 274,5 234 381 447 358 477 383 536 559 287 397 82 448 388 96 84 67,5 73,3 67 63,5 70,3 89 116 77,6 80 213 181 108 169 120 194 142 72 104 40 113 86,4 132 51,4 65,3 46,3 48,5 217 71,2 86,1 73,9 121 32 111 86 48 93 70 175 181 23 151 34 99,7 70,7 3,83 3,61 16,2 2,2 0 6,13 16,1 9,15 17,8 6,9 5 3,3 12,9 58,9 28,1 56,6 1,7 2,7 2,3 109 2,8 0,6 1,1 41,2 55,5 29,9 49,9 57,5 36,8 40,1 20,2 18,5 27,0 6,3 25,4 24,2 0,9 44,1 9,7 33,3 60,3 42,3 18,9 9,2 65,0 65,1 0,31 153,7 0,40 0,20 53,9 0,07 0,14 71,1 0,11 0,15 45 0,10 0,12 49 0,10 0,15 149 0,26 0,14 57,1 0,09 0,10 116,7 0,28 0,11 85 0,23 0,35 101,7 0,24 0,24 36,6 0,00 0,17 191 0,83 0,11 171 0,00 0,00 55,6 0,00 0,12 120 0,00 0,00 68,3 0,00 0,31 195 1,10 0,18 74,7 0,00 0,00 51,3 0,00 0,15 135 0,00 0,06 47 0,00 0,00 60,8 0,00 0,14 111 0,00 152 13,93 40,1 4,53 5,52 39 47,1 31,8 155,6 88 3,8 118 6,5 48,1 71,3 91,9 0 3,3 1,4 147 2,6 49,5 10,3 70,9 98,3 90,1 97,6 96,4 110 55,5 78,3 74 112 42,9 271 197 87,8 123 95,8 329 57,3 31,8 130 72,7 61,6 60,9 Anexo 1: Matriz dos dados 104 C.E. Eh HCO3 Ca Na K Mg F Cl Br NO3 SO4 FormGeol Média 7,39 Mínimo 6,20 1266,33 447,00 -76,15 -183,00 360,33 214,00 172,97 79,20 78,88 19,40 5,70 1,60 28,63 9,10 ,32 ,15 105,13 18,50 ,85 ,00 49,02 ,44 171,15 6,10 Aluviões Máximo 8,52 1762,00 132,20 482,00 245,60 122,00 13,80 73,50 ,57 191,00 3,30 118,00 271,00 Média Mínimo Máximo Média Mínimo Máximo Média Mínimo Máximo Média Mínimo Máximo Média Mínimo Máximo 934,45 395,00 1289,00 844,71 707,00 1005,00 1226,33 982,00 1492,00 1333,92 892,00 2220,00 1436,50 930,00 1871,00 192,34 75,60 230,00 143,71 -19,00 248,00 -113,18 -174,00 -74,70 -27,44 -258,10 163,50 -32,62 -170,00 133,70 278,61 82,00 529,48 382,12 287,00 448,00 415,17 210,00 575,00 378,25 316,00 477,00 385,83 43,00 559,00 88,15 40,00 150,00 80,86 67,00 113,00 124,00 74,40 174,00 141,28 96,00 240,00 149,87 75,20 204,00 94,32 10,08 25,15 32,00 2,80 6,30 217,00 23,30 42,20 58,69 3,70 53,63 23,00 ,00 40,10 99,70 16,10 65,10 108,15 27,35 21,20 89,30 4,90 ,00 138,00 85,80 37,40 123,58 33,54 27,48 48,00 2,70 ,90 275,40 109,00 69,50 118,87 8,27 45,67 9,70 1,10 3,40 181,00 26,00 91,40 ,18 ,06 ,35 ,11 ,00 ,20 ,31 ,14 ,47 ,31 ,00 1,01 ,39 ,11 1,00 93,77 ,18 79,72 81,53 36,60 ,00 2,60 42,90 153,70 ,40 206,00 123,00 61,16 ,05 18,90 71,73 45,00 ,00 1,40 31,80 111,00 ,10 49,50 98,30 87,90 ,14 30,43 116,57 64,50 ,00 6,90 57,80 108,40 ,40 46,90 147,00 103,98 ,66 46,76 180,53 52,60 ,00 4,45 82,90 171,00 3,40 147,00 653,00 103,57 ,82 5,67 223,70 25,70 ,00 ,00 37,70 195,00 3,20 21,40 459,20 pH 7,71 7,19 8,05 7,59 7,25 8,30 7,20 6,25 8,31 7,38 6,13 8,31 7,87 6,61 10,45 Formação de Benfica CVL Calcários de Entrecampos Areolas da Estefânia e Areias do Vale de Chelas Argilas do Forno do Tijolo e Arg. e Calc. Prazeres Baixo Médio Elevado Anexo 2: Caracterização dos grupos de formações geológicas 105 pH Eh Ca K 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 9 22 11 16 17 4 13 5 6 3 Valor 10,45 8,59 8,52 8,44 8,31 6,13 6,20 6,25 6,26 6,50 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 32 34 28 29 35 6 12 2 8 14 Valor 248,0 230,0 227,0 226,0 222,0 -258,1 -183,0 -174,0 -170,0 -153,0 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 10 21 37 8 42 46 31 30 28 32 Valor 245,6 240,0 213,0 204,0 194,0 40,0 63,5 67,0 67,5 70,3 1º 2º 3º 4º 5º Amostra 45 14 15 39 41 Valor 109,0 85,8 76,6 58,9 56,6 Maiores valores 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 21 22 16 43 10 46 12 36 44 30 Valor 2220 1871 1762 1642 1580 395 447 483 707 728 1º 2º Maiores 3º valores 4º 5º HCO3 1º 2º Menores 3º valores 4º 5º Amostra 5 43 42 24 19 9 46 2 12 25 Valor 575,00 559,00 536,00 529,48 512,00 43,00 82,00 210,00 214,00 219,60 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 21 31 43 4 42 9 12 44 36 46 Valor 275,4 217,0 181,0 178,0 175,0 9,7 19,4 23,0 32,0 34,0 1º 2º 3º 4º 5º Amostra 22 16 20 48 47 Valor 91,4 73,5 69,5 65,1 65,0 C.E. Na Mg Maiores valores 106 K F Br SO4 1º 2º Menores 3º valores 4º 5º 30 47 48 8 10 ,0 ,6 1,1 1,1 1,6 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 21 8 3 10 7 47 44 41 39 46 Valor 1,01 1,00 ,62 ,57 ,53 ,00 ,00 ,00 ,00 ,06 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 3 13 7 21 15 48 47 46 45 44 Valor 3,40 3,30 3,20 1,81 1,40 ,00 ,00 ,00 ,00 ,00 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 21 9 42 37 8 12 44 7 36 23 Valor 653,0 459,2 329,0 271,0 243,0 6,1 31,8 37,7 42,9 52,9 Mg Cl NO3 1º 2º Menores 3º valores 4º 5º 1 39 9 36 10 ,0 ,9 3,4 6,3 9,1 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 42 37 38 22 16 12 8 9 36 29 Valor 195,0 191,0 171,0 170,2 158,3 18,5 25,7 32,4 36,6 45,0 1º 2º Maiores 3º valores 4º 5º 1º 2º Menores 3º valores 4º 5º Amostra 23 34 26 45 25 42 12 44 7 22 Valor 206,00 155,60 152,00 147,00 119,50 ,00 ,44 1,40 1,60 2,49 Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores) para cada variável 107 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. Ca2+ Eh Na+ K+ Mg2+ 1 -,023 ,254 -,355* ,026 -,144 -,065 ,074 -,266 ,060 -,337* ,102 ,344* -,023 1 -,378** ,453** ,691** ,752** ,121 ,390** ,450** ,656** ,326* ,040 ,583** ,254 -,378** 1 -,043 -,375** -,145 -,092 ,055 -,499** ,063 -,285* ,336* -,288* -,355* ,453** -,043 1 ,384** ,288* ,047 ,441** ,009 ,242 ,121 ,026 ** ** ** 1 ,263 -,055 ,021 ,385 ** ** ,136 ,037 ,666** ,033 ,395** ,691 -,375 ,384 ,377 -,134 -,022 -,144 ,752** -,145 ,288* ,263 1 ,060 ,248 ,398** ,664** ,384** -,065 ,121 -,092 ,047 -,055 ,060 1 -,275 -,096 -,004 -,005 ,325* -,019 ,074 ,390** ,055 ,441** ,021 ,248 -,275 1 -,038 ,285* ,010 -,261 ,015 -,266 ** ** ,009 ,385 ** ** -,096 -,038 1 ,091 ** -,166 ,453** ,173 ,379** ,450 -,499 ,398 ,491 ,060 ,656** ,063 ,242 ,377** ,664** -,004 ,285* ,091 1 ,215 -,337* ,326* -,285* ,121 ,136 ,384** -,005 ,010 ,491** ,215 1 ,102 ,040 ,336 * * -,261 -,166 ,173 -,100 * ** -,288 * ,015 ** ** ,228 ,344 ,583 -,134 ,037 ,033 -,022 ** ** ,666 ,395 ,325 -,019 ,453 ,379 -,100 ,228 1 -,130 -,130 1 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Anexo 4: Matriz de correlações de Peason - amostra gobal 108 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. 1 ,429 Ca2+ Eh ,429 1 ,267 ,479 ,168 ,491 Na+ K+ ,486 ,389 ,780 * ,912 Mg2+ -,744 -,473 ,401 ,537 -,556 ,502 -,536 ,224 ,678 -,111 ,814 * ,076 ,480 ,796 ,877 * ,040 ,769 ,762 ,267 ,479 1 ,371 ,474 ,690 -,351 ,207 -,631 ,168 ,491 ,371 1 ,160 ,645 ,262 ,491 -,576 ,422 ,735 ,090 ,531 ,486 ,780 ,474 ,160 1 ,570 -,792 -,041 -,037 ,684 -,235 ,812* ,815* ,389 ,912* ,690 ,645 ,570 1 -,288 ,697 -,400 ,910* ,217 ,437 ,810 -,744 -,473 -,351 ,262 -,792 -,288 1 ,035 ,115 -,546 ,762 -,627 -,646 ,401 ,537 ,207 ,491 -,041 ,697 ,035 1 -,368 ,486 ,122 -,292 ,327 -,556 -,111 -,631 -,576 -,037 -,400 ,115 -,368 1 -,498 -,090 -,225 -,578 ,502 * * ,422 ,684 * -,546 ,486 -,498 1 -,069 ,692 ,902* ,040 ,735 -,235 ,217 ,762 ,122 -,090 -,069 1 -,148 -,062 * ,437 -,627 -,292 -,225 ,692 -,148 1 ,734 ,810 -,646 ,327 -,578 ,902* -,062 ,734 1 -,536 ,814 ,076 ,877 ,224 ,480 ,769 ,090 ,812 ,678 ,796 ,762 ,531 ,815* ,910 *. Correlation is significant at the 0.05 level (2-tailed). Anexo 5: Matriz de correlações de Pearson - Aluviões 109 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. 1 Ca2+ Eh ,158 K+ Mg2+ -,634* ,466 ,219 ,102 ,291 ,334 ,044 ,255 ,543 * ,522 ** ,165 ** ,338 ** ** ,557 ,408 ,503 ,387 ,362 ,362 ,376 ,415 ,401 ,538 ,275 ,268 ,503 1 ** ,326 -,213 ** ,018 ,353 ,498 ,005 ,039 ,387 ** 1 -,099 ,094 ,442 -,008 ,064 ,332 ,410 -,295 ** * ,192 ,692* -,243 -,512 ,158 1 ,479 -,243 ,479 1 -,512 * ,650 Na+ ,650 ,758 ,753 ,816 ,743 ,809 ,795 * ,522 ,466 ** ,362 ,326 -,099 1 ,037 ,577 ,340 ,219 ,165 ,362 -,213 ,094 ,037 1 -,169 ,000 ,017 -,014 ,541 ,313 ,102 ** ,376 ** ,442 ,577 -,169 1 ,174 * * ,249 ,259 ,291 ,338 ,415 ,018 -,008 ,340 ,000 ,174 1 ,346 ,363 ,287 ,306 ,334 ,809 ** ,064 ** ,017 ,647 * ,346 1 ** ,302 ,565 ,795 ** ,538 ,498 ,332 ,669 * ,363 ** 1 ,354 ,422 ,557 ,275 ,005 -,634 ,044 ,255 ,543 ,753 ,816 ,408 ,401 ,268 ,758 ,743 ,353 ,039 ,884 ,884 ,647 ,674 ,669 ,909 * -,014 ,410 ,192 ,541 ,249 ,287 ,302 ,354 1 -,018 -,295 * ,313 ,259 ,306 ,565 ,422 -,018 1 ,674 ,692 ,909 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Anexo 6: Matriz de correlações de Pearson - Formação de Benfica 110 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. 1 -,451 ,199 Ca2+ Eh -,451 1 -,742 ,199 -,742 1 Na+ K+ Mg2+ -,127 -,603 -,312 -,122 ,015 ,198 -,079 ,447 -,386 ,307 ,681 * ,738 -,141 ,732 ,109 ,669 -,508 ,433 -,007 * ,410 -,678 ,739 -,247 ,235 -,447 * -,648 ,524 ,635 ** ,058 ,616 ,227 ,181 ,106 ,683 ,404 * -,319 ,682 -,380 ,308 -,609 ,549 -,127 * -,023 -,800 ,681 -,447 -,603 * * ,635 1 ** * 1 ,127 ,567 -,090 ,382 -,238 -,800 ,767 ,767 -,312 ,738 -,648 -,122 -,141 ,524 ,058 -,319 ,127 1 -,670 ,279 -,125 ,331 ,542 -,250 ,015 ,732 * ,616 ,682 ,567 -,670 1 -,006 ,540 -,351 ,047 ,307 ,198 ,109 ,410 ,227 -,380 -,090 ,279 -,006 1 ,109 ,649 -,196 ,681 -,079 ,669 -,678 ,181 ,308 ,382 -,125 ,540 ,109 1 -,561 ,018 -,280 ,447 -,508 ,739 ,106 -,609 -,238 ,331 -,351 ,649 -,561 1 -,118 ,727 * ,542 ,047 -,196 ,018 -,118 1 -,253 -,250 ,307 ,681 -,280 ,727 -,253 1 -,845 ,890 ,890 -,845 -,127 ,804 1 ,804 -,386 ,433 -,247 ,683 ,549 ,827 ,307 -,007 ,235 ,404 -,127 -,023 ,827 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa 111 pH pH C.E. Eh Ca2+ Na+ K+ Mg2+ C.E. 1 -,143 -,143 ,426 Ca2+ Eh 1 ,168 ,426 ,168 1 -,060 ,797 ,638 Na+ ,559 ,612 ,705 K+ -,622 -,197 -,473 Mg2+ -,386 -,023 -,234 ,002 ,047 ,319 -,085 ,566 ** * ,186 ,392 ,596 ,650 ,760 ,844 * ,736 * ,886* -,458 ,953 ,048 -,887 -,267 -,327 -,060 ,797 ,638 1 ,779 -,250 ,180 ,692 -,660 -,170 ,748 ,907 ,559 ,612 ,705 ,779 1 -,641 ,042 ,606 -,745 -,185 ,541 ,928** ,651 -,622 -,197 -,473 -,250 -,641 1 -,251 -,097 ,586 ,537 ,116 -,538 -,434 -,386 ,566 -,458 ,180 ,042 -,251 1 ,490 -,554 -,198 -,475 -,018 ,177 -,023 ,953 ** ,048 ,692 ,606 -,097 ,490 1 * ,360 ,350 ,503 ,432 -,234 -,887* -,267 -,660 -,745 ,586 -,554 -,840* 1 -,062 -,207 -,634 -,613 ,002 ,186 -,327 -,170 -,185 ,537 -,198 ,360 -,062 1 ,157 -,324 -,349 ,047 ,392 ,760 ,748 ,541 ,116 -,475 ,350 -,207 ,157 1 ,712 ,641 ,319 ,596 * * ** -,538 -,018 ,503 -,634 -,324 ,712 1 ,851* -,085 ,650 ,651 -,434 ,177 ,432 -,613 -,349 ,641 ,851* 1 ,844 ,736 ,907 ,886* ,928 -,840 **. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos 112 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. 1 Ca2+ Eh ,050 ,567 Na+ K+ ,080 ,176 -,134 * ** -,435 ,050 1 -,337 -,133 ,613 ,567 -,337 1 ,521 -,027 ,927 Mg2+ ,059 ,048 ,045 ,229 -,271 ,081 ,325 -,152 ,558 ** * ,372 -,277 ,871** ,421 -,305 ,183 -,442 ,433 -,168 * ,132 -,302 ,755 -,516 ,649 ,080 -,133 ,521 1 -,026 -,345 ,097 ,440 -,549 ,452 ,176 ,613 * -,027 -,026 1 ,485 -,422 ,201 ,517 ,519 ,116 -,410 ,786** -,134 ,927** -,435 -,345 ,485 1 -,146 ,359 ,769** ,451 ,567 -,213 ,804** ,059 -,152 ,421 ,097 -,422 -,146 1 -,350 -,247 -,079 -,110 ,854** -,294 ,048 ,558 -,305 ,440 ,201 ,359 -,350 1 ,294 ,531 -,038 -,391 ,314 ,045 ** -,516 -,549 ,517 ** -,247 ,294 1 ,321 ** -,339 ,797** ,649* ,183 ,452 ,519 ,451 -,079 ,531 ,321 1 ,019 -,146 ,568 -,442 * ** ,019 1 -,184 ,398 ,229 -,271 ,755 ,372 ,081 -,277 ,325 ** ,871 ,433 -,168 -,596 ,116 ,769 -,110 -,038 ** -,391 -,339 -,146 -,184 1 -,387 ,314 ** ,568 ,398 -,387 1 -,410 -,213 -,302 ** ** ,786 ,779 ,567 ,132 ,804 ,854 -,294 ,779 -,596 ,797 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale de Chelas 113 pH pH C.E. Eh 2+ Ca Na+ K+ Mg2+ C.E. 1 Ca2+ Eh -,344 -,186 -,805 Na+ -,163 K+ -,508 Mg2+ ,849* -,250 -,697 -,296 -,535 ,831* ,554 ** -,020 ,524 -,069 -,755 -,567 ,140 -,476 ,497 -,049 -,452 -,236 * -,583 -,344 1 ,320 ,609 ,062 ,736 -,655 -,186 ,320 1 ,612 ,115 ,778 -,442 -,805 ,609 ,612 1 ,334 -,163 ,062 ,115 ,334 1 -,508 ,341 ,336 ,106 -,413 -,077 ,319 -,069 -,626 -,049 ,502 ,293 * -,641 * ,537 -,655 -,442 ** -,413 -,681 1 -,517 -,484 -,328 -,093 ,880 ** ,140 ,450 -,077 ,625 -,517 1 -,018 ,456 -,029 -,662 -,582 -,697 -,020 -,476 ,341 ,319 -,216 -,484 -,018 1 -,323 ,224 -,284 -,196 -,296 ,524 ,497 ,336 -,069 ,737 -,328 ,456 -,323 1 ,384 -,652 -,141 -,535 -,069 -,049 ,106 -,626 ,293 -,093 -,029 ,224 ,384 1 -,422 -,481 * -,049 * * -,662 -,284 -,652 -,422 1 ,673 -,583 ,502 ,537 -,582 -,196 -,141 -,481 ,673 1 -,250 ,974 * -,755 -,452 ,554 -,567 -,236 ,831 -,973 -,862 1 -,859 -,641 -,681 ,880 ,625 -,216 ,737 -,862 ,764 ,849 -,116 ,450 ,778 * ,736 ** ,764 -,973 -,116 ,974 -,859 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres 114 Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 1 -,249 -,099 1,046 ,811 ,769 -,377 ,722 1,205 -,560 ,767 ,245 -1,438 ,766 ,384 1,007 1,388 ,328 ,559 ,263 ,520 2,759 1,504 -1,087 -,312 -,187 ,027 -,842 -1,303 -1,293 -1,302 ,244 -,973 -,609 -,694 -,272 -1,620 1,091 ,561 Scores Componentes 2 3 -1,386 -,846 -1,359 -,811 -1,916 -1,252 -,811 ,515 -,613 ,427 -1,418 ,296 -1,666 ,895 -1,500 ,795 -,246 -1,533 -,722 -1,082 ,496 -,127 -2,528 ,187 -1,962 ,398 -,575 -,131 -1,432 -1,181 1,076 1,138 ,301 -,074 -,552 -,512 ,125 -,015 ,556 1,454 ,171 -,494 1,213 ,900 ,959 -1,268 ,472 1,196 ,925 -1,658 1,511 -,523 ,007 1,560 ,376 -,173 -,038 1,147 ,526 1,363 1,223 ,085 ,411 ,732 ,404 -,167 ,821 -1,175 ,661 -,620 -,696 -,187 1,293 -1,083 ,884 -,118 4 ,293 -,962 -1,796 -,254 -,346 ,466 -2,473 1,785 3,266 1,503 1,714 ,123 -,360 ,449 -,999 ,581 ,788 ,751 1,347 -,309 ,062 -,149 -,380 ,313 -1,068 -1,734 ,176 -,396 ,020 ,203 -1,621 -,433 -,861 -,549 -1,296 ,082 ,594 ,874 5 ,255 -,587 -,270 ,682 1,437 ,347 -,600 ,202 -1,469 -,427 -,465 -,551 ,796 2,759 1,259 -,572 -,452 -1,225 ,761 -,170 -2,327 -,937 -,250 ,976 -,443 -,655 ,030 -,662 -,236 -,715 -,647 ,592 -,668 ,144 -1,114 -1,152 -,484 ,313 115 39 40 41 42 43 44 45 46 47 48 -1,391 ,304 -,945 1,693 ,491 -1,612 ,361 -2,004 -,288 -,356 ,328 1,135 ,787 ,425 1,008 -,132 1,237 -,370 ,207 ,383 -1,099 ,078 -1,723 ,488 1,801 1,396 -1,832 -,297 1,605 1,526 ,639 ,484 ,402 ,394 ,018 -,155 -,994 ,172 -,029 -,334 1,446 1,515 1,744 -,316 ,950 -,353 2,160 -1,409 ,916 -,129 Anexo 11: Scores das 5 primeiras componentes principais 116