Universidade Técnica de Lisboa
Instituto Superior de Agronomia
MODELAÇÃO DA DISTRIBUIÇÃO E DA ABUNDÂNCIA LOCAL
DO CÁGADO-MEDITERRÂNICO (Mauremys leprosa) E DO
CÁGADO-DE-CARAPAÇA-ESTRIADA (Emys orbicularis)
EM PORTUGAL
Pedro Segurado
Orientador:
Doutor José Miguel Oliveira Cardoso Pereira
Júri
Presidente:
Doutor António Manuel Dorotêa Fabião
Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa
Vogais:
Doutor José Miguel Oliveira Cardoso Pereira
Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa
Doutor Jorge Manuel Mestre Marques Palmeirim
Professor Auxiliar da Faculdade de Ciências da Universidade de Lisboa
Mestrado em Gestão de Recursos Naturais
Lisboa
2000
Universidade Técnica de Lisboa
Instituto Superior de Agronomia
MODELAÇÃO DA DISTRIBUIÇÃO E DA ABUNDÂNCIA LOCAL
DO CÁGADO-MEDITERRÂNICO (Mauremys leprosa) E DO
CÁGADO-DE-CARAPAÇA-ESTRIADA (Emys orbicularis) EM
PORTUGAL.
Pedro Segurado
Orientador:
Doutor José Miguel Oliveira Cardoso Pereira
Júri
Presidente:
Doutor António Manuel Dorotêa Fabião
Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa
Vogais:
Doutor José Miguel Oliveira Cardoso Pereira
Professor Associado do Instituto Superior de Agronomia da Universidade Técnica de Lisboa
Doutor Jorge Manuel Mestre Marques Palmeirim
Professor Auxiliar da Faculdade de Ciências da Universidade de Lisboa
Dissertação apresentada neste Instituto
para efeitos de obtenção de grau de Mestre
Mestrado em Gestão de Recursos Naturais
Lisboa
2000
RESUMO
Dados sobre a presença/ausência de Mauremys leprosa e de Emys orbicularis em
quadrículas UTM decaquilométricas foram utilizados para ajustar modelos preditivos da
distribuição. Recorreu-se a duas técnicas estatísticas: modelos baseados em árvores de
classificação e modelos de regressão logística multivariada. As variáveis preditoras foram
obtidas a partir do Atlas do Ambiente de Portugal e incluíam variáveis macroclimáticas,
geomorfológicas, ecológicas e de cobertura do solo. Por forma a maximizar o leque de
escolhas na selecção do modelo mais adequado, foram ajustados um grande número de
modelos estatisticamente válidos. Os mapas preditivos da distribuição foram obtidos
através de um Sistema de Informação Geográfica. Como complemento a esta informação
estudou-se a influência de variáveis locais na presença ou abundância das espécies.
Ambos os métodos e as variáveis ambientais disponíveis revelaram-se
razoavelmente eficazes na modelação da distribuição, tendo-se obtido precisões totais de
classificação na ordem dos 80% para M. leprosa e de 84% para E. orbicularis. As
variáveis mais importantes na distribuição das espécies foram sobretudo de natureza
climática, como a radiação solar, humidade, escoamento, evapotranspiração, precipitação
e regiões ecológicas. Os resultados apontam para fortes indícios de regressão de E.
orbicularis em Portugal. Os mapas resultantes serão úteis para seleccionar áreas
prioritárias para a conservação das espécies.
Palavras chave: Mauremys leprosa, Emys orbicularis, biogeografia, conservação,
regressão logística, árvores de classificação.
Predictive models of the distribution and local abundance of the mediterraneanterrapin (Mauremys leprosa) and the stripe-necked-terrapin (Emys orbicularis) in
Portugal.
ABSTRACT
Information on the presence/absence of Mauremys leprosa and Emys orbicularis in UTM
10 x 10 km grid cells was used to build predictive models of their distribution in Portugal.
Two types of statistical models were used: tree-based models and multivariate logistic
regression models. The predictive variables were obtained from the Environment Atlas of
Portugal, which includes climatic, geomorphological, ecological and land cover variables.
A great number of statistically valid models were adjusted in order to maximise the span
of choices in model selection. The predictive maps were obtained using a Geographic
Information System.
Both methods and the available environmental variables provided a reasonable
predictive power of the models. About 80% (M. leprosa) and 84% (E. orbicularis) of the
cells were correctly classified. The variables with stronger predictive power were mainly
climatic: solar radiation, humidity, drainage, evapotranspiration, rainfall and ecological
region. The results suggests strong evidence on the decline of E. orbicularis populations
in Portugal. The predictive maps will be very useful for the future selection of priority
areas for conservation.
Key-words: Mauremys leprosa, Emys orbicularis, biogeography, conservation, logistic
regression, classification trees.
AGRADECIMENTOS
Ao Dr. José Miguel Pereira por ter aceite a orientação científica desta dissertação e pela
disponibilidade que sempre manifestou.
Ao Dr. Octávio Paulo pela co-orientação desta dissertação e ter facultado o acesso ao seu
gabinete e respectivo recheio.
À Dra. Paula Rito de Araújo pelas facilidades concedidas na realização desta tese,
nomeadamente por ter facultado os dados para a sua realização, pelas sugestões sempre oportunas e
sobretudo pela simpatia que demonstrou como patroa durante os três anos em que trabalhei no
serviço.
Ao José Santos, que me acompanhou muitas vezes por esse país fora.
À Constança Camilo-Alves e ao José Carlos Brito, por terem gentilmente cedido a base de dados
e os mapas das variáveis. Muito obrigado.
Aos amigos, conhecidos, amigos de amigos, irmãos de amigos, etc., que amavelmente me
disponibilizaram as suas informações sobre observações de cágados: Francisco Pereira, Francisco
Álvares, António Monteiro, José Carlos Brito, Rui Rebelo, Gonçalo Rosa, Patrícia Brito, Ana Rainho,
Maria João Marques, Humberto Rosa, Filipe Catry e Miguel Lecoq. Desculpa se me esqueci de ti.
Outra vez ao José Carlos pelo arroz com queijo, o mau cheiro, a tenda, o chão duro, as
derrocadas de estradas, os troncos a barrarem caminhos, o jipe atolado, as ribeiras putrefactas, o
acidente, a muita sorte, a ausência de companhia feminina, os copos e as consequentes e inevitáveis
considerações metafísicas à luz das estrelas, etc, etc, que partilhámos durante as amostragens e que
deram origem a alguns dados que usei nesta tese.
Aos amigos de infância Alberto e Henrique, por terem aceite mais uma vez ser meus colegas,
apesar de os ter abandonado antes de o serem. Obrigado por terem feito tanta publicidade ao S-PLUS.
A todos os colegas de Mestrado que partilharam comigo a imensa alegria de voltar a estudar para
os exames.
Aos meus pais, claro.
Só para acabar e agora numa ordem totalmente aleatória e sem qualquer tipo de preferência
tirando algumas excepções, às amigas e aos amigos: Isabel Pinto, Inês&Paulo, Rui Rebelo, e ainda
talvez ao Pedro Moreira, ou não? Sim. E também à Ana Campos e ao Paulo Catry. E à Susana Rosa
que entretanto apareceu e ainda me ajudou a rever o texto. Obrigado por me terem deixado trabalhar
nos minutos em que não estava convosco.
Índice
ÍNDICE
1 Introdução...............................................................................................................
1
1.1 Enquadramento geral........................................................................................
1
1.2 As espécies em estudo......................................................................................
8
1.3 Objectivos.........................................................................................................
11
2. Metodologia............................................................................................................
13
2.1 Recolha de dados..............................................................................................
13
2.2 Análise da distribuição conhecida das espécies...............................................
13
2.3 Modelação da distribuição................................................................................
15
2.3.1. Matriz de dados........................................................................................
15
2.3.2 Análise exploratória dos dados.................................................................
17
2.3.3 Modelos probabilísticos............................................................................
18
2.3.3.1 Escolha das técnicas..........................................................................
18
2.3.3.2 Regressão logística multivariada.......................................................
18
2.3.3.3 Árvores de classificação....................................................................
24
2.3.3.4 Comparação e integração dos modelos.............................................
26
2.3.4 Representação geográfica dos modelos....................................................
26
2.4 Influência de variáveis locais...........................................................................
27
2.4.1 Matriz de dados.........................................................................................
27
2.4.2 Análise univariada....................................................................................
29
2.4.3 Análise multivariada.................................................................................
29
3 Resultados...............................................................................................................
31
3.1 Distribuição conhecida das espécies................................................................
31
3.2 Modelos preditivos da distribuição...................................................................
32
3.2.1 Mauremys leprosa.....................................................................................
32
3.2.1.1 Análise exploratória..........................................................................
32
3.2.1.2 Regressão logística............................................................................
39
3.2.1.3 Árvores de classificação....................................................................
48
3.2.1.4 Comparação e integração dos modelos.............................................
52
3.2.2 Emys orbicularis.......................................................................................
55
3.2.2.1 Análise exploratória..........................................................................
55
3.2.2.2 Regressão logística............................................................................
58
Índice
3.2.2.3 Árvores de classificação....................................................................
65
3.2.2.4 Comparação e integração dos modelos.............................................
67
3.3 Comparação entre a distribuição de Mauremys leprosa e Emys orbicularis....
70
3.4 Representação geográfica dos modelos............................................................
73
3.4.1 Mauremys leprosa.....................................................................................
73
3.4.2 Emys orbicularis.......................................................................................
77
3.5 Influência de variáveis locais...........................................................................
81
3.5.1 Mauremys leprosa.....................................................................................
81
3.5.1.1 Análise univariada.............................................................................
81
3.5.1.2 Análise multivariada.........................................................................
84
3.5.2 Emys orbicularis.......................................................................................
92
4 Discussão.................................................................................................................
95
4.1 Interpretação ecológica dos modelos................................................................
95
4.2 Avaliação e interpretação dos modelos segundo a sua representação
geográfica...............................................................................................................
99
4.3 Influência de varáveis locais.............................................................................
102
5 Considerações finais...............................................................................................
105
6 Referências..........................................................................................................
107
1. Introdução
1. INTRODUÇÃO
1.1 Enquadramento geral
Padrões de distribuição das espécies
Cada espécie tem uma área de distribuição geográfica única que reflecte tanto o seu nicho
ecológico actual como a sua história evolutiva (Brown & Gibson, 1983). Com efeito, os
limites actuais de distribuição das espécies não são apenas condicionados pelas
características ecológicas e fisiológicas destas, mas resultam, em grande medida, do espaço
geográfico onde ocorreu a sua evolução e especiação.
A área ocupada por uma espécie não é homogénea, apresentando uma alternância
de parcelas com diferentes características ambientais, que determinam a ocorrência e a
densidade das populações (Forman, 1995). Por sua vez, a dinâmica de metapopulações
(Gilpin, 1987; Hanski & Gilpin, 1991; Hanski, 1996) mostra que o padrão de distribuição,
a dimensão, a forma e conectividade das parcelas mais adequadas à sobrevivência de uma
espécie determinam a sua subsistência a longo prazo numa dada região, ao actuarem na
dinâmica da extinção e recolonização locais.
Existe no entanto algum determinismo nos padrões de distribuição da abundância
na área geográfica em que a espécie ocorre. A distribuição da abundância ao longo de um
gradiente ambiental é geralmente descrito por uma curva gaussiana (Begon, 1996). Deste
modo, no centro da área de distribuição a abundância é tendencialmente maior do que na
periferia (Lawton et al., 1994), traduzida quer pela densidade populacional a nível local,
quer pelo número de registos de presença a várias escalas. Segundo o modelo de “fluxo de
centrífugo” de Grinnel (Antunez & Mendonza, 1992), muitas populações periféricas
apresentam taxas de mortalidade que superam as de reprodução e são mantidas por um
fluxo de imigrantes das populações centrais. Este fenómeno é essencialmente válido para
espécies com grande capacidade de dispersão como é o caso das aves (Brown & Gibson,
1983), ou para escalas geográficas ao nível dos habitats.
1
1. Introdução
Factores limitantes da distribuição
Em última análise os factores que afectam a distribuição das espécies são aqueles que
actuam directa ou indirectamente na sobrevivência, reprodução e movimento dos
indivíduos nas populações periféricas. Nos animais, em comparação com o que sucede
com a vegetação, o efeito de factores físicos limitantes é menos aparente, em parte porque
é mais difícil de detectar variações na mortalidade e no sucesso reprodutor e em parte
porque têm a capacidade de se refugiar em microclimas com condições mais favoráveis
(Brown & Gibson, 1983). Outra dificuldade surge da interacção entre os factores que
determinam os limites da distribuição de uma espécie (Brown & Gibson, 1983; Begon,
1996).
Os factores limitantes da distribuição mais frequentemente apontados são (Brown
& Gibson, 1983; Wiens, 1989; Antunez & Mendonza, 1992; Cox & Moore, 2000):
(1) factores climáticos (constrangimentos fisiológicos das espécies), (2) disponibilidade de
habitats (recursos alimentares, locais de reprodução e refúgio), (3) factores bióticos
(competição, predação e mutualismo), (4) barreiras topográficas (cadeias montanhosas,
oceanos, etc.), (5) capacidade de dispersão da espécie (mobilidade, tamanho corporal), (6)
distúrbios (muitas espécies dependem de distúrbios regulares do meio ambiente), (7) fluxo
genético (o fluxo genético das populações centrais para as periféricas impede a adaptação
destas a novas condições ambientais) e (8) acção humana (capturas e alteração dos
habitats).
Diferentes factores ecológicos podem limitar a distribuição espacial duma espécie
em diferentes zonas da sua área geográfica (Cox & Moore, 2000), e por isso as conclusões
que se extraem a nível local não são generalizáveis (Antunez & Mendonza, 1992).
A relação entre os factores ambientais e a distribuição de uma espécie pode ser
estudada a várias escalas espaciais. A escala mais apropriada e a resolução a ser empregue
dependem do objectivo do estudo (May, 1994), podendo estudos do mesmo fenómeno,
efectuados a várias escalas, levar a resultados contraditórios (Gaston & Lawton, 1990). A
escolha de escalas erradas pode inclusivamente levar a generalizações que podem ser
perigosas quando aplicadas à conservação (Murphy, 1989).
Por sua vez, a natureza dos factores a ter em consideração depende igualmente da
escala de estudo (Antunez & Ramirez, 1992; Cox & Moore, 2000). Por exemplo, o padrão
de ocorrência de uma espécie a nível local é determinado sobretudo pelas características
dos habitats e por factores bióticos. Já o padrão de ocorrência ao nível regional é sobretudo
2
1. Introdução
influenciado por factores macro-ambientais (que influenciam igualmente as características
dos habitats). A resolução adoptada na escala regional é necessariamente menor do que na
escala local, não só por razões logísticas, mas porque o excesso de resolução pode
obscurecer o padrão geral que se pretende estudar. Por outro lado, suponhamos que se
adopta uma baixa resolução espacial (por exemplo baseada numa rede UTM 10 x 10 km);
é mais difícil associar a cada quadrícula determinada característica de habitat (por
exemplo, profundidade do meio aquático) do que determinada variável macro-ambiental
(por exemplo temperatura média anual), uma vez que apresenta variações (que podem ser
determinantes para a espécie) apenas detectáveis com resoluções espaciais muito finas.
Modelação ambiental e SIG
Os métodos de identificação dos principais factores ambientais envolvidos no padrão de
ocorrência e abundância das espécies bem como da sua modelação geográfica, sofreram
recentemente um grande desenvolvimento associado aos avanços nos domínios da
estatística espacial e do armazenamento e manipulação de dados espaciais por Sistemas de
Informação Geográfica (SIG) (Haslett, 1990; Walker, 1990; Maurer, 1994; Johnston,
1998).
Com um modelo ambiental pretende-se relacionar uma determinada característica
ou fenómeno (variável dependente ou variável resposta) com factores ambientais (variáveis
independentes ou covariáveis) cuja variação no espaço é conhecida, por forma a permitir a
sua extrapolação por toda a área geográfica que se pretende estudar. Os modelos podem ser
dinâmicos ou estáticos consoante integrem ou não uma componente temporal.
Como seria de esperar, a integração de SIG com modelos ambientais tem emergido
como uma área muito significativa do desenvolvimento dos SIG (Johnston, 1998). Podem
distinguir-se três tipos principais de modelos usados em ambiente SIG: modelos
cartográficos, modelos baseados em regras e modelos estatísticos (Johnston, 1998).
Os modelos cartográficos resultam da simples combinação de várias camadas de
informação, recorrendo às capacidades operativas dos SIG (Berry, 1993; Johnston, 1998),
com o objectivo de localizar as áreas com as propriedades ecológicas desejadas. Estes
modelos têm sido frequentemente utilizados para cartografar o grau de adequação dos
habitats, numa perspectiva de gestão do território. Palmeirim (1985), a partir de uma
imagem Landsat TM classificada produziu camadas de informação relevantes para a
avaliação e selecção de habitats para repovoamentos de galinholas no Nordeste do Kansas.
3
1. Introdução
Ormsby (1987) produziu mapas de disponibilidade de alimento do veado-de-cauda-branca
igualmente a partir de camadas de informação resultantes da classificação de uma imagem
Landsat TM. Breininger et al. (1991) usou mapas de solo e vegetação obtidas a partir de
fotografias aéreas para cartografar os habitats primários e secundários do gaio da Florida.
Uma das desvantagens destes modelos é que a relação entre as camadas de informação e as
propriedades que se pretendem mapear tem de ser conhecida à partida, muitas vezes
através da imposição regras subjectivas.
A modelação baseada em regras recorre a sistemas periciais para o estabelecimento
de regras de decisão. O próprio sistema “aprende” a relação entre as camadas de
informação e estabelece uma série de critérios para a modelação ambiental. Uma técnica
relativamente simples para o estabelecimento de regras de decisão baseia-se em árvores de
classificação (para variáveis resposta categoriais) e regressão (para variáveis resposta
contínuas). Esta técnica recorre a partições binárias que vão subdividindo a amostra inicial,
segundo regras de decisão, em subconjuntos de crescente homogeneidade (Clark &
Pregibon, 1992). Por exemplo, Walker (1990) usou árvores de classificação integradas com
uma base de dados e um SIG para gerar modelos de distribuição de três espécies de
cangurus na Austrália.
Nos modelos estatísticos estabelece-se uma relação empírica entre as variáveis
ambientais e determinada propriedade ecológica (variável resposta), através da estimação
de parâmetros cuja validade é estatisticamente testável. Diferentes abordagens estatísticas
são utilizadas caso se pretenda modelar uma variável resposta contínua ou categorial. Para
variáveis resposta contínuas a técnica mais utilizada é a regressão linear múltipla. Quando
as variáveis resposta são categoriais recorre-se frequentemente a modelos de regressão
logística (Hosmer & Lemeshow, 1989; MacCullagh & Neller, 1989; Trexler & Travis,
1993). Esta técnica, ao contrário do que sucede por exemplo com a análise discriminante
linear, apresenta a vantagem das estatísticas não assumirem quer uma distribuição normal
das variáveis quer a homogeneidade de variâncias entre as classes. Por outro lado, permite
a modelação quer de variáveis dicotómicas quer de variáveis politómicas ordinais
(definidas de forma arbitrária ou subjectiva) ou nominais (MacCullagh & Neller, 1989).
Austin et al. (1996) utilizou funções de análise discriminante e regressões logísticas para
prever a distribuição espacial de áreas de nidificação da águia-de-asa-redonda, tendo
obtido com a última técnica modelos mais simples, mais robustos e mais precisos do que
com a primeira. Mais recentemente tem havido uma tendência crescente para a utilização
4
1. Introdução
de métodos estatísticos bayesianos (Ellison, 1996; Hoef, 1996) em detrimento da estatística
frequentista usual.
Outro conjunto de modelos baseia-se em técnicas de interpolação espacial em que a
modelação geográfica duma característica ou fenómeno é baseada exclusivamente em
informação de natureza espacial. Estas técnicas têm vindo a ser aplicadas na análise de
padrões espaciais da abundância das espécies e no desenvolvimento de métodos de
descrição da fragmentação demográfica das populações (Maurer, 1994).
O ajustamento de modelos ambientais estatísticos é na maioria dos casos realizado
em programas de estatística separados dos SIG. No entanto, tem-se verificado uma
tendência para o desenvolvimento de programas específicos que estabelecem a ligação
entre os SIG e programas de estatística e de módulos estatísticos incluídos nos próprios
SIG (Johnston, 1998).
Modelos de distribuição
No caso da modelação da distribuição, a variável resposta é categorial dicotómica
(presença/ausência). A regressão logística multivariada tem sido a técnica mais
frequentemente utilizada na modelação da probabilidade de ocorrência de espécies a
diversas escalas de estudo (Walker, 1990; Hill, 1991; Pereira & Itami, 1991; Buckland &
Elston, 1993; Chandler et al.,1995; Augustin, et al., 1996; Austin et al., 1996, Brito et al.,
1996; Romero & Leal, 1996; Franklin, 1998; Brito et al., 1999). No caso de se dispor de
dados de abundância é possível produzir modelos espaciais da abundância das espécies
através de modelos de regressão logística ordinal, associando a cada unidade espacial uma
probabilidade de possuir determinado nível de abundância (Gates et al., 1994; North &
Reynolds, 1996). Outras técnicas de modelação da distribuição de espécies incluem
funções discriminantes (Rogers & Williams, 1994; Austin, et al., 1996), distâncias de
Mahanalobis (Clark et al., 1993), análises de correlação canónica (Andries et al, 1994),
métodos baseados em critérios de decisão múltiplos (MCDM) (Pereira & Duckstein, 1993)
e árvores de classificação (Walker, 1990; Franklin, 1998; Iverson & Prasad, 1998). Os
modelos probabilísticos de distribuição são também frequentemente utilizados no domínio
da arqueologia, para a selecção de áreas geográficas a prospectar (Parker, 1985; Kvamme,
1990; Kvamme, 1992; Warren, 1990). Descrevem-se de seguida, muito sucintamente,
alguns exemplos de trabalhos de modelação da distribuição de espécies.
5
1. Introdução
Walker (1990) utilizou árvores de classificação e regressão logística para modelar
três espécies de canguru na Austrália com base em variáveis climáticas, tendo obtido
resultados ligeiramente melhores com a primeira técnica.
Franklin (1998) recorreu às mesmas duas técnicas para prever a distribuição de
espécies de arbustos na eco-região do sul da Califórnia em função de variáveis climáticas,
tendo igualmente obtido erros de classificação menores com os modelos baseados em
árvores de classificação.
Gates et al. (1994) modelaram a ocorrência e a abundância de oito espécies de aves
agrícolas da Grã-Bretanha numa rede UTM 10 x 10 km. Obtiveram um máximo de 16
modelos por espécie, tendo sido escolhido aquele que possuía melhores medidas de
qualidade de ajustamento.
Brito et al. (1996; 1999) e Teixeira et al. (1996) recorreram a modelos de regressão
logística para gerar mapas da probabilidade de ocorrência, respectivamente, de lagarto-deágua e de salamandra-dourada em Portugal, a partir de variáveis ambientais extraídas do
Atlas do Ambiente de Portugal (C.N.A., 1983). A resolução adoptada foi também baseada
na rede UTM 10 x 10 km. Brito et al. (1999) compararam ainda os resultados obtidos com
os modelos de regressão logística, com os mapas originados a partir da simples
combinação de camadas de informação (modelo cartográfico).
Pereira & Itami (1991) geraram dois modelos de regressão logística de presença do
esquilo-vermelho de Mount Graham (Arizona, E.U.A.) - um modelo ambiental e um
modelo baseado unicamente nas coordenadas dos locais de ocorrência (utilizando um
polinómio do 4º grau) - e integraram a informação recorrendo a um modelo bayesiano,
utilizando o segundo modelo para gerar probabilidades a priori.
Aspinall & Veitch (1993) recorreram igualmente a um modelo bayesiano para obter
um mapa de probabilidade de ocorrência de maçarico-real no NE da Escócia. As
probabilidades condicionais foram calculadas com base nos valores espectrais de uma
imagem Landsat TM e de um modelo digital do terreno e foram posteriormente usadas
para classificar a imagem.
Buckland & Elston (1993) efectuaram uma revisão dos modelos empíricos de
distribuição, utilizando dados de ocorrência de pica-pau-verde, de rabirruivo e de veado no
NE da Escócia. Utilizaram, como variáveis independentes, as componentes principais do
espaço das variáveis ambientais, como forma de reduzir a sua dimensionalidade.
Recomendaram a técnica de bootstrap para avaliar a precisão do modelo.
6
1. Introdução
Como forma de contornar os problemas provenientes da autocorrelação espacial,
Augustin et al. (1996) propuseram a adição de um termo designado por autocov à equação
logística. Para testar o procedimento utilizaram os mesmos dados de ocorrência de veado
que Buckland & Elston (1993).
Iverson & Prasad (1998) desenvolveram modelos baseados em árvores de regressão
para avaliar potenciais alterações nos limites de distribuição de 80 espécies arbóreas do
Este dos Estados Unidos face a mudanças climáticas globais.
Biogeografia e conservação
Os limites de distribuição de uma espécie não são estáticos no tempo, estando em
constante mudança em resposta a alterações climáticas e geológicas a longo prazo. Para
muitas espécies estes processos foram acelerados pela actividade humana, de forma que
grandes mudanças na distribuição e abundância ocorreram dentro de escalas de tempo sem
antecedentes na história evolutiva (Brown & Gibson, 1983; Lawton, et al., 1994).
As populações mais vulneráveis à acção humana encontram-se geralmente nas
periferias das respectivas áreas de distribuição, uma vez que estão em geral mais isoladas
(Rapoport,
1982),
apresentam
densidades
menores
(segundo
os
modelos
metapopulacionais) e estão mais susceptíveis a alterações globais de factores limitantes.
Dum simples inventário da distribuição, é possível extrair informações de diversa
natureza (Harding, 1991), como por exemplo: (1) os limites de distribuição das espécies,
(2) informações sobre as preferências de habitat das espécies e (3) variações espaciais da
biologia das espécies. Por outro lado, os estudos biogeográficos contribuem para a gestão
dos recursos naturais e problemas de conservação a grande escala, nomeadamente no que
se refere aos planos de ordenamento territorial (Ramirez & Vargas, 1992) e à
monitorização das populações (Harding, 1991).
Os efeitos a larga escala, como é o caso da possível alteração climática global do
planeta, requerem necessariamente estudos a uma escala suficientemente grande, por forma
a poder relacionar esses efeitos com eventuais alterações na área geográfica de uma
espécie. Para tal, é importante identificar os principais factores que influenciam a
distribuição a larga escala das espécies e construir modelos válidos que permitam prever os
futuros efeitos de alterações globais.
7
1. Introdução
Os modelos ambientais são também importantes para acções de restauro de
populações ou comunidades, uma vez que ajudam a localizar as áreas com maiores
potencialidades para levar a cabo acções de reintroduções de espécies.
A determinação e a modelação de áreas de ocorrência podem ser importantes para a
localização de zonas de maior vulnerabilidade para as espécies. Aplicando a escala e as
resoluções certas é possível determinar o grau e o padrão de fragmentação ou isolamento
das populações. Esta informação pode ser importante para prever a maior ou menor
vulnerabilidade das populações,
juntamente com dados demográficos e padrão de
dispersão dos indivíduos, de acordo com modelos metapopulacionais (Harrison, 1994).
Por último, os modelos de distribuição são importantes para a delimitação de áreas
prioritárias para a conservação a nível nacional de uma ou várias espécies. A informação
sobre os limites de distribuição, grau de fragmentação, detecção de populações isoladas,
coincidência na distribuição de diferentes espécies, etc., integrada com outro tipo de
informação (demografia, avaliação de habitats, etc.) pode ser útil na selecção de áreas
potencialmente importantes para a conservação de determinada espécie ou para a
biodiversidade em geral.
1.2 As espécies em estudo
Morfologia
Em Portugal continental ocorrem duas espécies de cágados autóctones: O cágadomediterrânico, Mauremys leprosa (Schweigger, 1812) e o cágado-de-carapaça-estriada,
Emys orbicularis (Linnaeus, 1758), ambos pertencentes à família Emydidae (Ernst &
Barbour, 1989). No texto que se segue passar-se-ão a adoptar as respectivas abreviaturas:
Mle e Eor. As duas espécies distinguem-se essencialmente pelo padrão de cores e pela
forma e estrutura da carapaça (Barbadillo, 1987; Ernst & Barbour, 1989).
Mle apresenta uma carapaça com uma tonalidade castanho-esverdeada com uma
quilha longitudinal mais ou menos evidente; os membros interiores e pescoço são
percorridos por listas amarelo-alaranjadas; o plastrão é rígido e possui placa inguinal.
Eor possui uma carapaça mais escura e geralmente com o lado dorsal mais convexo
do que a espécie anterior e não possui quilha dorsal; apresenta uma cor preta ou
acastanhada com pintas e estrias amarelas mais ou menos evidentes; a cabeça, pescoço e
8
1. Introdução
patas são igualmente escuras com pintas amarelas; possuem um plastrão ligeiramente
móvel na sua região anterior através de uma charneira transversal; não possuem placa
inguinal.
Distribuição
As duas espécies apresentam uma distribuição distinta, sendo Eor mais setentrional e
cosmopolita. Vivem em simpatria na Península Ibérica e nalgumas regiões do Norte de
África, como por exemplo no Norte de Marrocos (Bons & Geniez, 1996).
Mle distribui-se por maior parte da Península Ibérica, prolongando-se um pouco
para Norte dos Pirinéus orientais, no Sul de França; a sua distribuição prolonga-se ainda
por todo o Magreb mediterrâneo (Marrocos, Argélia e Tunísia) até à Tripolitânia (Oeste da
Líbia). Ocorrem ainda populações isoladas mais a Sul, próximo das margens meridionais
do Saara (Sul da Mauritânia, Mali e Níger) (Bons & Geniez, 1996).
Eor possui uma distribuição caracteristicamente centroeuropeia. A sua área de
distribuição estende-se desde a Península Ibérica até ao médio-oriente (Mar Cáspio), e
desde o Norte de África (Marrocos, Argélia e Tunísia) até ao Norte da Europa (Alemanha,
Polónia, Países Bálticos e Rússia). Ocorre ainda na Grécia, Itália, França, países do Leste
Europeu e em ilhas mediterrâneas como a Córsega, Sardenha e Baleares (Ernst & Barbour,
1989).
Habitat
As duas espécies ocupam habitats semelhantes, partilhando com frequência o mesmo meio
aquático nas regiões de simpatria. A informação disponível sobre a utilização dos habitats
destas espécies tem essencialmente um carácter descritivo.
Mle vive em praticamente todo tipo de habitats de água doce na sua área de
distribuição (Ernst & Barbour, 1989), incluindo rios, ribeiros, valas agrícolas, tanques,
charcos, lagoas, albufeiras e pauis. É frequentemente encontrado em locais com índices de
poluição relativamente elevados (Barbadillo, 1987; observação própria).
Eor prefere cursos ou massas de água estanque ou de corrente lenta, de fundo
lodoso e uma boa cobertura de vegetação aquática (Arnold & Burton, 1978; Barbadillo,
1987; Ernst & Barbour, 1989). Pode também encontrar-se em rios e ribeiros com alguma
corrente. Os juvenis preferem massas de água de pequenas dimensões, pouco profundas ou
9
1. Introdução
mesmo de carácter temporário (Nečas et al., 1997). Esta espécie pode também encontrar-se
em locais com índices de poluição elevados (Ernst & Barbour, 1989; observação própria).
Da Silva (1993) encontrou núcleos populacionais de Eor na província de Badajoz
apenas nos ribeiros de água limpa e pouco alterados das zonas serranas, ao contrário da
outra espécie, que foi observada em todo tipo de habitats, poluídos ou não. Já na região de
Doñana (SW de Espanha) verifica-se uma certa segregação espacial das espécies: Mle
tende a ocupar sobretudo as massas de água de maiores dimensões e de carácter
permanente e Eor tende a ocupar charcos temporários (Keller et al., 1994).
Estado das populações
Mle é considerado comum na maioria das regiões onde ocorre (Barbadillo, 1987; Crespo &
Oliveira, 1990; Da Silva, 1993; Malkmus, 1995; Bons & Geniez, 1996; Araújo et al.,
1997), havendo no entanto alguns indícios de regressão a nível local.
Pelo contrário Eor é considerado raro e em regressão na grande parte da sua área de
distribuição (Servan & Pieau, 1984; Corbett, 1986; Barbadillo, 1987; Crespo & Oliveira,
1990; Frisenda & Ballasina, 1990; Amo, 1991; Astudillo & Arano, 1995; Malkmus, 1995;
Bons & Geniez, 1996; Nečas et al., 1997; Araújo et al., 1997) e especialmente na Europa
central e do Norte, onde ocorrem populações muito isoladas. Em todos os países europeus
onde se dispõe de informação sobre o estado das populações, a espécie é considerada rara e
em regressão (Araújo et al., 1997.). A alteração e destruição de zonas húmidas (drenagens,
regularização das margens, etc.), a poluição industrial e agrícola , a introdução de espécies
de tartarugas exóticas e a captura para comércio são alguns dos factores mais apontados
para a situação actual desta espécie.
Em termos da situação legal a nível internacional, ambas as espécies estão incluídas
no Anexo II da Convenção de Berna e, mais recentemente, nos anexos II e IV da Directiva
da União Europeia - Directiva Habitats - relativa à “Preservação de Habitats Naturais e
Seminaturais e da Fauna e Flora Selvagens” (Directiva 92/43/CEE).
Situação em Portugal
Em Portugal o estado das populações de Mle não parece preocupante (Araújo et al., 1997),
apesar de haver algumas informações sobre desaparecimentos ou declínios a nível local.
10
1. Introdução
Esta espécie é considerada “Não Ameaçada” pelo Livro Vermelho dos Vertebrados de
Portugal (SNPRCN, 1990).
Eor apresenta alguns indícios de regressão em Portugal. Possui uma distribuição
muito fragmentada e nos locais onde ocorre surge invariavelmente com valores de
abundância muito inferiores aos de Mle (Segurado, 1996; Araújo et al., 1997). Os estudos
efectuados até agora em Portugal nas populações consideradas mais importantes revelam a
quase inexistência de juvenis e recém nascidos e uma taxa de gravidez muito baixa
(Segurado, 1996; Araújo et al., 1997.). Esta espécie possui o estatuto de
“Insuficientemente Conhecida”, apesar de haver fortes motivos (Araújo et al., 1997) para a
incluir, segundo os critérios da IUCN, no estatuto de “Vulnerável”. Em Espanha esta
espécie já possui este estatuto.
Em Portugal estas espécies encontram-se numa região periférica da sua distribuição
(limite Noroeste para Mle e Sudoeste para Eor), o que representa um factor adicional na
vulnerabilidade das populações, sobretudo de Eor.
1.3 Objectivos
Tendo em consideração o que foi exposto pretendeu-se com este trabalho:
1. Obter modelos preditivos da distribuição de Mle e de Eor em Portugal, com base nas
variáveis macro-ambientais disponíveis;
2. Comparar os resultados da aplicação de diferentes modelos de classificação;
3. Determinar quais as variáveis com mais influência na ocorrência das espécies a duas
escalas: a nível nacional (influência de variáveis macro-ambientais) e a nível local
(influência de variáveis locais).
Este trabalho poderá, no futuro, fornecer bases para a gestão das populações destas
espécies, nomeadamente quanto à delimitação de áreas prioritárias para a conservação.
A distribuição a nível nacional foi estudada apenas com base em dados de
presença/ausência das espécies, devido à dificuldade em associar abundâncias a cada
unidade de amostragem (quadrículas UTM 10 x 10 km), e sobretudo à grande margem de
erro que tal procedimento acarretaria. Considerando que os factores a nível local
11
1. Introdução
apresentam uma maior relação com a densidade populacional, os modelos a esta escala
basearam-se em dados de abundância relativa. Devido à escassez de dados de Eor, a
influência de variáveis locais foi estudada com base apenas em análises univariadas.
12
2. Metodologia
2. METODOLOGIA
2.1 Recolha dos dados
A maioria dos dados analisados neste trabalho foram obtidos no âmbito do projecto
“avaliação da situação de Emys orbicularis e de Mauremys leprosa em Portugal” (Araújo
et al., 1997), decorrido entre 1992 e 1997. Neste projecto, os resultados relativos à
distribuição das espécies basearam-se na compilação de informação, quer bibliográfica
quer fornecida por colaboradores, e em amostragens no terreno. Os métodos de
amostragem consistiram essencialmente na realização de transectos ao longo de cursos de
água, em capturas com armadilhas e em observações ad-hoc (Araújo et al., 1997). Os
transectos e as armadilhagens permitiram a obtenção de abundâncias relativas, expressas
respectivamente por um índice horário de abundância (número de observações por unidade
de tempo) e por um índice segundo o número de armadilhas e o número de horas de
armadilhagem (número de indivíduos capturados por armadilha e por hora).
Em 1997 e 1998, já no âmbito do presente estudo, com o objectivo de obter dados
adicionais sobre a distribuição e abundância das espécies, foram realizados transectos em
119 locais onde se dispunha ainda de pouca informação.
2.2 Análise da distribuição conhecida das espécies
Representação da distribuição
A todos os locais de amostragem foram retiradas as respectivas coordenadas UTM com
resolução de 1 Km, com base em cartas 1:25000 do Instituto Cartográfico do Exército. A
distribuição das espécies foi representada segundo a sua ocorrência em quadrículas da rede
UTM 10 x 10 km. Apesar da cartografia de Portugal do Instituto Cartográfico do Exército
basear-se no sistema de projecção Gauss, as coordenadas UTM têm sido utilizadas com
mais frequência nos atlas de distribuição de espécies em Portugal, razão pela qual se optou
por este sistema, apesar dos erros que daí advêm.
13
2. Metodologia
Índices de raridade
A representação da distribuição com base numa rede quadricular de 10 km tem sido usada
com alguma frequência na quantificação da raridade e na determinação do grau de ameaça
das espécies (Harding, 1991; Spellerberg, 1992). Podem considerar-se dois tipos de
raridade: a distribuição pode estar confinada a uma determinada região restrita e então
considera-se a espécie como rara a nível nacional, ou a distribuição pode ser mais alargada
mas muito fragmentada e então considera-se a espécie como rara a nível local (Spellerberg,
1992).
Para quantificar a raridade foram criados dois índices: um Índice de Raridade
Global (IRG) e um Índice de Raridade Média Local (IRML), calculados da seguinte forma:
IRG =
A
A+ P
A = nº total de quadrículas de ausência
P = nº total de quadrículas de presença
P
∑ IR
IRML =
i
Li
P
em que IRL é o Índice de Raridade Local e mede o grau de isolamento de cada quadrícula
de presença, sendo expresso da seguinte forma:
IRL =
Av − Pv
V
Av = nº de quadrículas de ausência na vizinhança da quadrícula
Pv = nº de quadrículas de presença na vizinhança da quadrícula
V = nº total de quadrículas na vizinhança da quadrícula
Para determinar o número de quadrículas de cada tipo (ausência, presença, não
amostrada) na vizinhança das quadrículas de presença utilizou-se o módulo “pattern”
(função class frequency) do programa IDRISI (Eastman, 1990), a partir duma imagem com
14
2. Metodologia
informação sobre a presença/ausência, em que cada pixel correspondia a uma quadrícula
UTM 10 x 10 km. Consideraram-se as quadrículas incluídas numa janela de 5 x 5,
excluindo as quadrículas dos cantos (V = 22). Após as operações algébricas entre as
camadas para o cálculo dos IRL calculou-se o valor médio (IRML) através do módulo
“extract”.
O Índice de Raridade Local varia entre -1 (todas as quadrículas da vizinhança são
presenças) e 1 (todas as quadrículas da vizinhança são ausências) e é nulo quando o nº de
quadrículas de cada classe é igual. Quando o IRG é baixo e o IRML é elevado a espécie é
considerada rara a nível nacional; quando ambos os índices são baixos a espécie é
considerada rara a nível local.
2.3 Modelação da distribuição
2.3.1 Matriz de dados
Para cada espécie construiu-se uma matriz de dados com informação sobre a
presença/ausência da espécie por quadrícula UTM 10 x 10 km. A cada quadrícula UTM
10 x 10 km associaram-se variáveis ambientais extraídas do Atlas do Ambiente (C.N.A.,
1983). Para tal, considerou-se a moda das variáveis, ou seja, a classe que ocupava uma área
maior na quadrícula. Incluíram-se na matriz um total de 12 variáveis quantitativas e 20
variáveis qualitativas (Tabela 2.1). As variáveis quantitativas consideradas são intervalares
e por isso houve a necessidade de associar um número inteiro a cada classe de variável, por
forma a que as variações se dessem em intervalos unitários (Anexo I). As variáveis
qualitativas são sobretudo de presença/ausência de determinado tipo de cobertura.
Foram ainda incluídas na matriz duas variáveis espaciais (nº da linha e nº da coluna
da quadrícula, no sistema UTM 10 x 10 km), apenas como forma de controlo. No caso
extremo de nenhuma variável ambiental estar relacionada com a distribuição das espécies,
os modelos gerados incluiriam apenas estas duas variáveis.
15
2. Metodologia
Tabela 2.1 Variáveis incluídas nas análises, classes e respectivos códigos.
Variáveis quantitativas
Temperatura média do ar (ºC, diária)
Precipitação total anual (mm)
Humidade relativa do ar (%, às 9.00T.M.G.)
Escoamento (mm)
Evapotranspiração real (mm)
Insolação total anual (hora)
Radiação solar (Kcal/cm2)
Altitude (m, acima do nível médio das águas do mar)
Carta ecológica (informação Fito-Edafo-Climática)
Solo (tipo predominante de solo)
Geada (nº de meses - época do ano agrícola)
Densidade populacional humana (nº de hab./km2 - por concelho)
Nº da coluna (UTM 10 x10)
Nº da linha (UTM 10 x10)
Variáveis qualitativas
Folhosas
Resinosas
Olival
Sobreiral
Azinheira
Carvalhal
Pinhal
Eucaliptal
Castanheiro
Figueira
Medronheiro
Alfarrobeira
Amêndoeira
Culturas arvenses
Cultura arbustiva
Culturas arbórias
Consociações arvense-arbóreas
Consociações arbóreo-arvenses
Incultos
Salinas e sapais
Classes
1-6
1 - 13
1-6
1 - 14
1-8
1 - 14
1-7
1-9
1-8
1-5
1 - 10
1-7
1 - 28
1 - 58
Código
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
0/1
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
MEDR
ALFA
AMEN
CUARV
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
Um dos problemas decorrentes da modelação espacial é o da autocorrelação
espacial das amostras (Cliff & Ord, 1973; Anselin, 1993). Quadrículas vizinhas tendem a
apresentar condições semelhantes e, consequentemente, os resíduos de um modelo ajustado
têm tendência a exibir autocorrelação espacial, originando estimativas enviesadas da
variância residual e dos coeficientes de regressão. Para além deste efeito, a probabilidade
de ocorrência da espécie numa quadrícula pode não ser independente da presença nas
quadrículas vizinhas (Augustin et al., 1996).
Na tentativa de obviar este problema optou-se por adoptar uma amostragem
sistemática, tendo-se criado sub-conjuntos de quadrículas em que se excluíam as
16
2. Metodologia
quadrículas adjacentes, quer na horizontal e vertical, quer na diagonal. A escolha deste
esquema de subamostragem foi em parte suportado pelo cálculo do valor do Moran´s I
(Cliff & Ord, 1973), através do módulo “autocorr” do programa IDRISI (Eastman, 1990),
para a variável resposta. Com um factor de contracção de segunda ordem o valor do índice
baixou cerca de 50% (de I = 0.482 para I = 0.259). Procedimentos idênticos foram
adoptados por outros autores (Pereira & Itami, 1991; Gates et al., 1994; Brito et al., 1999).
Deste modo, para Mle criaram-se 4 matrizes de dados, com 66, 58, 63 e 60
quadrículas de ausência e, respectivamente, 91, 82, 86 e 80 quadrículas de presença. Estas
matrizes serviram tanto de amostras de treino como de amostras de validação. Para Eor
criaram-se duas matrizes com objectivos diferentes. Uma para discriminar entre
quadrículas de presença e de ausência, com respectivamente 30 e 48 quadrículas, e outra
para discriminar entre quadrículas de presença de ambas as espécies e a presença apenas de
Mle (apenas recorrendo a uma análise univariada), com respectivamente 30 e 56
quadrículas. Como amostra de validação criou-se, para cada abordagem, uma matriz com
19 quadrículas de ausência e 19 de presença. A subamostragem das quadrículas de
ausência para esta espécie foi efectuada com base nas quadrículas de ausência das duas
espécies, por forma a garantir com maior segurança a real ausência da espécie.
2.3.2. Análise exploratória dos dados
Para testar diferenças entre as classes presença e ausência das espécies relativamente a
cada variável quantitativa foram usados testes não paramétricos, uma vez que se
detectaram desvios significativos à normalidade em todas as variáveis. Utilizaram-se o
teste U de Mann-Whitney para testar diferenças nas medianas e o teste de KolmogorovSmirnov de duas amostras para comparar a distribuição de frequências em cada classe
segundo cada variável quantitativa (Zar, 1984). Estes testes foram realizados
separadamente para cada matriz de dados.
Para testar eventuais diferenças entre as distribuições de cada variável nas quatro
matrizes de Mle, separadamente para ausências e presenças, efectuaram-se ainda uma
ANOVA de Kruskal-Wallis e um teste da mediana (Zar, 1984).
17
2. Metodologia
No caso das variáveis qualitativas foram realizados testes de χ2 de modo a testar se
as classes presença e ausência estavam distribuídas aleatoriamente nas categorias das
variáveis.
2.3.3 Modelos probabilísticos
2.3.3.1 Escolha das técnicas
Com o objectivos de conhecer a combinação de variáveis com maior influência na
presença das espécies e de obter um modelo preditivo da distribuição, recorreram-se a duas
técnicas: regressão logística e árvores de classificação.
Como já foi referido anteriormente, a primeira tem sido frequentemente utilizada na
modelação da distribuição de espécies faunísticas. O método das árvores de classificação
não tem sido muito utilizado em problemas biológicos, mas apresenta grandes
potencialidades, sobretudo na área de gestão de recursos naturais, devido à sua
simplicidade de interpretação.
Ambos os métodos apresentam a vantagem das estatísticas não assumirem quer
uma distribuição normal das variáveis, quer a homogeneidade de variâncias entre as
classes, ao contrário do que sucede com outros métodos clássicos como a função
discriminante linear. Por outro lado, permitem ambas uma análise conjunta do efeito de
covariáveis quantitativas e qualitativas.
2.3.3.2 Regressão logística multivariada
O modelo logístico
A regressão logística inclui-se nos designados modelos lineares generalizados, que são
extensões do modelo linear clássico em que o preditor linear η relaciona-se com o valor
esperado µ da variável resposta y por meio de uma função g designada função de ligação
(Hosmer & Lemeshow, 1989; MacCullagh & Neller, 1989). No caso da regressão logística,
na sua versão mais simples em que a variável resposta é binária, a função de ligação é o
logit e toma a seguinte forma:
18
2. Metodologia
 µ 
η = g( µ ) = log

1− µ
O valor esperado µ equivale neste caso à probabilidade π(x) de se dar uma das duas
respostas, dado um vector de covariáveis x. A fracção entre parêntesis designa-se por odds.
A expressão pode ser rescrita em função do logit (agora expresso em função de x) do
seguinte modo:
e g( x)
π(x) =
1 + e g( x)
Esta expressão descreve uma curva logística para π(x) em função do preditor linear g(x),
restringindo os seus valores ao intervalo [0,1]. O logit tem então como finalidade
transformar π(x) numa função com as propriedades desejadas de um modelo de regressão
linear, podendo deste modo tomar a forma clássica:
g(x) = β0 + β1x1 + β2x2 + ...+ βpxp,,
em que β0 é uma constante, β1 ... βp são os coeficientes das x1 ... xp covariáveis ou variáveis
independentes. A principal diferença entre o modelo linear clássico e o modelo logístico é
que a distribuição da variável resposta dado x não segue uma distribuição normal, mas sim
uma distribuição binomial de parâmetro π(x) (Hosmer & Lemeshow, 1989).
Para avaliar a qualidade de ajustamento dos modelos aos dados são geralmente
estimadas duas estatísticas baseadas nos resíduos: A deviance (D) e a estatística X
2
de
Pearson, baseadas respectivamente na soma dos quadrados dos resíduos deviance e de
Pearson. A sua distribuição segue uma distribuição χ2 com J - p + 1 graus de liberdade (J
≈ nº de amostras, p = nº de variáveis no modelo), assumindo o modelo como correcto
(Hosmer & Lemeshow, 1989). São calculadas do seguinte modo:
J
(
Deviance: D = ∑ d y j , π$ j
j =1
)
2
,
19
2. Metodologia
em que, para yi = 0:
(
[ (
)
d y j , π$ j = − 2m j ln m j 1 − π$ j
)] ,
e para yi = 1:
(
)
(
d y j , π$ j = 2m j ln m j π$ j
X 2 de Pearson:
)
J
(
X 2 = ∑ r y j , π$ j
j =1
)
2
,
em que:
(
)
r y j , π$ j =
(y
j
− m j π$ j
(
)
m j π$ j 1 − π$ j
)
yj = resposta observada para o valor distinto j de x
J = nº de valores distintos de x (J ≈ nº de amostras)
mj = nº de amostras para cada valor distinto de x (mj ≈ 1)
Após a fixação de uma probabilidade a partir da qual se considera que a espécie
está presente (ponto de corte), torna-se possível a validação do modelo através das
percentagens de classificações correctas em amostras independentes (amostras de
validação) à amostra que lhe deu origem (amostra de treino). Para tal, passam a ser
aplicadas as metodologias usualmente empregues em classificação de imagens (Congalton,
1991).
Ajustamento dos modelos
A cada uma das matrizes de treino foram, em primeiro lugar, ajustados modelos
univariados de modo a seleccionar as covariáveis a incluir na análise multivariada. Assim,
foram incluídas na análise posterior todas as covariáveis com p<0.25 no teste de Wald ou
20
2. Metodologia
cuja importância biológica se considerou relevante, segundo o procedimento recomendado
por Hosmer & Lemeshow (1989). Assim, todas as variáveis quantitativas foram incluídas
na análise multivariada. Verificou-se ainda o efeito de transformações de cada variável
quantitativa ( x 2,
x , ln x , x ln x ), bem como de interacções entre variáveis ( x i . x j) no
ajustamento univariado.
Seguidamente, foram ajustados para cada matriz de treino modelos multivariados
através de processos de selecção forward e de eliminação backward das covariáveis. As
variáveis incluídas em cada um dos modelos finais, teriam de contribuir significativamente
para a redução da deviance do modelo, estimada pela estatística do quociente de
verosimilhanças (teste G), e o intervalo de confiança do respectivo odds ratio (taxa de
incremento do odds para cada alteração unitária da covariável) não poderia conter o valor
unitário (Hosmer & Lemeshow, 1989). Ajustaram-se ainda oito modelos em que se
“forçavam” cada uma das oito covariáveis com maior significado na análise univariada a
entrar no respectivo modelo final. Os mesmos modelos foram ajustados com e sem as
variáveis de localização espacial (nº da linha e nº da coluna). Após o ajustamento das
variáveis verificava-se ainda o efeito de transformações e de interacções entre covariáveis;
sempre que aumentavam o poder explicativo eram incluídas num novo modelo final.
Este procedimento levou ao ajustamento de um grande número de modelos, por
forma a maximizar o leque de escolhas possíveis do modelo mais adequado. Por outro
lado, a produção de vários modelos preditivos independentes é aconselhável, uma vez que
permite avaliar a importância relativa de cada covariável (Gates et al., 1994). As variáveis
que surgem com mais frequência nos modelos são provavelmente as que mais determinam
a presença ou abundância das espécies.
No processo de ajustamento dos modelos foi utilizado o programa EGRET (1991).
Os mesmos modelos finais foram posteriormente ajustados recorrendo à função glm, do
programa S-PLUS - version 3.3 for Windows (Statistical Science, 1995; Venables &
Ripley, 1997) uma vez que apresenta algumas vantagens na validação e diagnóstico dos
modelos. Em ambos os programas o método de estimação dos parâmetros é o da máxima
verosimilhança, pelo método IRLS (iteratively reweighted least-squares), não se tendo
detectado qualquer diferença no resultado das estimativas.
21
2. Metodologia
Avaliação dos modelos
Na escolha do melhor modelo procurou-se avaliar os modelos através de uma solução de
compromisso entre dois tipos de avaliação: (1) baseadas nas taxas de classificação; (2)
baseadas na quantificação dos desvios reais (resíduos) em relação ao modelo.
Uma vez que o objectivo principal era o de extrapolar o modelo para quadrículas
não amostradas, o primeiro critério na escolha do melhor modelo foi baseado nas taxas de
classificação da amostra de validação (Hosmer & Lemeshow, 1989). Para cada modelo
produzido foram determinadas as percentagens de quadrículas da amostra de treino bem
classificadas, ao longo de sucessivos pontos de corte (Walker, 1990, Pereira & Itami,
1991). Na determinação das taxas de classificação das quadrículas nas amostras de
validação usou-se o ponto de corte em que havia um maior equilíbrio entre a percentagem
de quadrículas de presença e de ausência da amostra de treino bem classificadas. Os
valores de probabilidade para todas as quadrículas, previstos segundo cada modelo, foram
obtidos com a função predict.glm do S-PLUS.
Para cada amostra e para a amostra completa foram construídas matrizes de
classificação (2 x 2) em que as colunas representam as classes de presença e ausência reais
e as linhas representam as classes presença e ausência após a classificação, segundo
determinado ponto de corte. Os valores incluídos representam o número de quadrículas
afectas a determinada classe relativamente à categoria real da quadrícula. A partir destas
tabelas foram calculados os valores de precisão do produtor (fracção de observações
pertencentes a determinada classe que foram correctamente classificadas) e do utilizador
(fracção de observações afectas a uma classe e que na realidade são dessa classe). Em
detecção remota a precisão do produtor (relativa ao erro do tipo I) é uma medida da
probabilidade de um pixel pertencente a determinada classe estar bem classificado, ao
passo que a precisão do utilizador (relativa ao erro do tipo II) indica a probabilidade de
uma quadrícula classificada numa imagem representar na realidade essa classe no terreno
(Congalton, 1991). A precisão do utilizador reflecte assim o grau de fiabilidade do mapa
resultante da extrapolação.
Na modelação da distribuição de Mle, cada modelo ajustado com uma das quatro
matrizes era validado separadamente com as três matrizes restantes. Para Eor foi usada
uma matriz no ajustamento do modelo e outra na sua validação.
Para os dez modelos com as melhores precisões do produtor da amostra de
validação, determinaram-se os respectivos valores de deviance (D) e da estatística de
22
2. Metodologia
Pearson (X 2), quer para as amostras de treino quer para as amostras de validação. Para Mle
determinaram-se os valores médios de D e X 2 entre as três amostras de validação.
Da comparação entre estas estatísticas, ponderadas pelos graus de liberdade, e da
respectiva avaliação do significado biológico, seleccionou-se o modelo mais adequado
para a modelação da distribuição das espécies em Portugal. Optou-se por nunca seleccionar
os modelos que incluíam as variáveis espaciais, uma vez que perdiam o significado
biológico.
Diagnóstico do modelo
Recorreu-se às capacidades gráficas do S-PLUS (funções plot.glm e plot.gam) para efectuar
um diagnóstico informal (MacCullagh & Neller, 1989) do modelo. Para avaliar a
linearidade de cada variável com o logit ajustou-se, com as mesmas variáveis do modelo
seleccionado, um modelo aditivo generalizado (Statistical Sciences, 1995; Venables &
Ripley, 1997) com a função gam (operação de suavização s - cubic B-splines) do S-PLUS.
Um modelo aditivo generalizado é semelhante a um modelo linear generalizado, sendo,
contudo, baseado na combinação linear de diferentes funções de suavização associadas a
cada covariável, e não das próprias covariáveis. A partir da visualização gráfica da
covariável versus a covariável ajustada, decidiu-se quais as transformações de escala das
covariáveis a efectuar no modelo linear (considerando, por exemplo, apenas o intervalo de
valores da variável onde se verificava a linearidade). Se o decréscimo no deviance no
modelo
linear
era
significativo,
substituíam-se
as
variáveis
pelas
respectivas
transformações.
2.3.3.3 Árvores de Classificação
Os modelos baseados em árvores
As árvores de classificação fornecem uma alternativa aos modelos logísticos lineares e
aditivos em questões de classificação (Clark & Pregibon, 1992). Os modelos baseados em
árvores, segundo os métodos S (Clark & Pregibon, 1992; Statistical Sciences, 1995;
Venables & Ripley, 1997) e a metodologia CART (Walker, 1990), são ajustados através
de regras de decisão, baseadas em partições binárias recursivas, dividindo a matriz de
dados em subconjuntos de crescente homogeneidade. De modo a prever a resposta y dado
23
2. Metodologia
o vector de covariáveis x tem de se seguir o caminho desde a raiz, correspondente à matriz
de dados inicial, até aos nós terminais, ou folhas, às quais estão associadas probabilidades
segundo as regras, ou cisões, no interior dos nós. No caso da função tree do programa SPLUS que utiliza a metodologia S, a construção da árvore continua até o número de casos
que chega a cada folha ser inferior a 10, ou a deviance na folha ser inferior a 1% da
deviance no nó da raiz (Clark & Pregibon, 1992; Statistical Sciences, 1995; Venables &
Ripley, 1997). Nas árvores de classificação a variável resposta é nominal - por oposição às
árvores de regressão em que a variável resposta é numérica - e as covariáveis podem ser
contínuas, intervalares ou nominais.
Uma das justificações para o uso da metodologia S é a de que providencia um
modelo probabilístico (Venables & Ripley, 1997). Em cada nó terminal da árvore está
associada uma probabilidade pik (i - nó, k - classe). Cada observação da amostra de treino é
afecta a um nó terminal, cada um incluindo uma amostra aleatória nik de uma distribuição
multinomial especificada por pik. As probabilidades são estimadas a partir das proporções
das classe em cada nó (pik = nik/ni). A deviance da árvore é então definida por:
D = ∑ Di
i
Di = −2∑ nik log pik ,
k
e a deviance explicada em cada separação é dada por Di - Di1 - Di2 (i1 e i2 são os dois nós
gerados pelo nó i).
Clark & Pregibon (1992) enumeram algumas vantagens destes modelos
relativamente aos baseados em combinações lineares: (1) a interpretação do modelo é
bastante facilitada, especialmente quando há mistura de variáveis numéricas e nominais;
(2) são invariantes a transformações monotónicas das covariáveis; (3) o tratamento de
valores ausentes é mais satisfatório; (4) a questão da interacção entre variáveis é resolvida
automaticamente. Outra vantagem é a de permitirem hierarquizar as variáveis explicativas
quanto à escala de actuação sobre a variável resposta (Franklin, 1998). As variáveis que
operam a grandes escalas tendem a ser usadas como critério nas primeiras partições do
modelo, ao passo que as variáveis que influenciam a variável resposta a nível mais local
são usadas como regras de decisão perto dos nós terminais. A maior desvantagem desta
técnica prende-se com o facto de ainda não se terem desenvolvido procedimentos formais
para a sua inferência estatística, o que a leva a que seja mais utilizada como uma técnica de
análise exploratória (Clark & Pregibon,1992).
24
2. Metodologia
Ajustamento e avaliação do modelo
Os modelos foram ajustados e avaliados com as mesmas matrizes utilizadas na regressão
logística. Também neste caso os mesmos modelos foram ajustados com e sem as variáveis
de localização espacial (nº da linha e nº da coluna). Uma vez ajustada cada árvore,
procedia-se à sua simplificação de modo a evitar o sobre-ajustamento do modelo às
amostras de treino. Esta simplificação foi realizada através de operações de “poda”
implementadas pelo programa S-PLUS através das funções prune.tree e snip.tree. O número
ideal de nós terminais resultou de uma solução de compromisso entre as taxas de
classificação correcta e os valores de deviance para a amostra de treino e para a amostra de
validação, tendo-se seguido o procedimento do S-PLUS (Clark & Pregibon, 1992;
Statistical Sciences, 1995) com as correcções implementadas pelo módulo Treefix de
Venables & Ripley (1997). Na avaliação da qualidade de ajustamento dos modelos as
probabilidades 1 e 0 foram substituídas respectivamente por 0.999 e 0.001, de acordo com
a recomendação de Venables & Ripley (1997), de modo a possibilitar o cálculo da
deviance.
Resultaram assim dois modelos por matriz, perfazendo um total de oito modelos.
Tal como para a regressão logística, a selecção do modelo final resultou de uma solução de
compromisso entre os valores de deviance ponderados pelos graus de liberdade (número de
observações subtraído pelo número de nós terminais), as taxas de classificação da amostra
de treino e das amostras de validação, a simplicidade do modelo e o seu significado
biológico.
2.3.3.4 Comparação e integração dos modelos
As medidas de qualidade de ajustamento dos modelos finais baseados em árvores e de
regressão logística foram comparadas entre si com base na amostra completa. Por outro
lado, estimaram-se as medidas de qualidade de ajustamento para as quadrículas de
consenso entre os dois modelos (quadrículas afectas à mesma classe por ambos os
modelos), por forma a determinar o aumento de confiança da classificação para estas
quadrículas.
25
2. Metodologia
2.3.4 Representação geográfica dos modelos
Para representar geograficamente os modelos optou-se pela resolução original dos mapas
das covariáveis do Atlas do Ambiente de Portugal. Os mapas, após a sua importação
através de um scanner, foram georeferenciados com base no sistema U.T.M. e, para cada
covariável, os polígonos correspondentes às classes de variável foram digitalizados
recorrendo ao programa TNTMips (Microimages, 1997). Criou-se igualmente uma camada
com informação sobre a presença/ausência das espécies em quadrículas U.T.M. 1 x 1 km.
As camadas assim criadas foram posteriormente convertidas em formato raster e
transferidas para o programa IDRISI. Com este programa procedeu-se à reclassificação das
camadas de acordo com as escalas das respectivas variáveis utilizadas nos modelos, bem
como à posterior representação espacial dos modelos.
Para os modelos de regressão logística aplicaram-se directamente as fórmulas dos
modelos probabilísticos às camadas das variáveis incluídas nos modelos, dando origem a
uma superfície de probabilidade de ocorrência das espécies, a qual foi posteriormente
reclassificada em duas classes - ausência e presença - de acordo com o respectivo ponto de
corte.
No caso dos modelos baseados em árvores, aplicaram-se operações lógicas às
camadas de acordo com as regras de decisão impostas pelos modelos e as probabilidades
associadas aos nós terminais. A camada resultante com informação sobre a probabilidade
de ocorrência da espécie foi reclassificada em duas classes de acordo com a regra de
decisão de Bayes (os pixels eram afectos à classe com maior probabilidade, ou seja,
segundo um ponto de corte de 0.5).
Os mapas preditivos correspondentes aos dois tipos de modelos foram sobrepostos
de modo a determinar as áreas de consenso entre os modelos, onde teoricamente o grau de
confiança da classificação é maior.
26
2. Metodologia
2.4 Influência de variáveis locais
2.4.1 Matriz de dados
A modelação da influência de variáveis locais na presença e abundância de Mle foi baseada
em 249 pontos de amostragem. Apenas se consideraram os pontos situados nas quadrículas
onde os modelos de distribuição previam a ocorrência da espécie, de modo a evitar
”misturar” o efeito das variáveis macro-ambientais. Devido à impossibilidade de se obter
valores de abundância suficientemente precisos em tantos pontos de amostragem, as
abundâncias foram ordenadas em apenas três níveis subjectivos: (1) ausência, (2)
abundância baixa a média e (3) abundância elevada. Considerou-se uma abundância
elevada para locais onde foi obtido um índice horário de abundância superior a 60
indivíduos/hora. Foram incluídas na análise 7 variáveis qualitativas e 14 variáveis
quantitativas (Tabela 2.2).
As classes da variável Tipo de habitat aquático foram criadas de acordo com a
dominância relativa dos sistemas riverino, palustre e lacustre - segundo definições
semelhantes às adoptadas no programa Medwet (Farinha et al., 1996) - presentes nos
pontos de amostragem. Consideraram-se assim 7 classes:
1. Riverino - cursos de água corrente durante a maior parte do ano, com baixa ou nula
cobertura de vegetação emergente.
2. Riverino-palustre - cursos de água corrente durante a maior parte do ano, com pequenos
troços de água parada (pegos) com características palustres.
3. Palustre-riverino - cursos de água que durante os meses mais secos transformam-se em
poças e charcos com características palustres.
4. Palustre - poças, açudes e charcos com uma área inferior a 8 ha e profundidade máxima
inferior a 2 metros.
5. Palustre-lacustre - lagoas e albufeiras com as margens maioritariamente ocupadas por
ambientes palustres.
6. Lacustre-palustre - lagoas e albufeiras com algumas margens ocupadas por ambientes
palustres.
7. Lacustre - lagoas e albufeiras sem ambientes palustres.
27
2. Metodologia
Tabela 2.2 Variáveis locais e respectivos códigos incluidas na análise (* - explicação no texto)
Variáveis
Classes/unidades
Código
Riv, Riv-pal, pal-riv pal, pal-lac, lac-pal, lac
HABI
N, NE, E, SE, S, SW, W, NW
ORIE
Afloramento rochoso
0/1
AFLO
Cascalho
0/1
CASC
Substrato arenoso
0/1
AREN
Substrato lodoso
0/1
LODO
Largura média
metros
LARG
Altitude
metros
ALTI
0: 0-0.25m; 1: 0.25 - 0.5m; 2: 0.5 - 1m; 3: > 1m
PROF
Cobertura de vegetação emergente
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
EMER
Cobertura de vegetação flutuante
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
FLUT
Cobertura de vegetação imersa
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
IMER
Cobertura de extracto herbáceo
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
HERB
Cobertura de extracto arbustivo
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
ARBS
Cobertura de extracto arbóreo
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
ARBR
0 - nula; 1 - baixa; 2 - moderada; 3 - alta
VCOR
Turbidez da água
0 - nula; 1 - baixa; 2 - moderada; 3 - alta
TURB
Insolação
0 - nula; 1 - baixa; 2 - moderada; 3 - alta
INSO
Variáveis qualitativas nominais:
Tipo habitat aquático*
Orientação
Variáveis qualitativas de presença/ausência:
Variáveis contínuas:
Variáveis ordinais
Profundidade máxima
Variáveis ordinais subjectivas
Velocidade da corrente
Inclinação dominante da margem
Relevo
0: 0-25%; 1: 25-50%; 2: 50-75%; 3: 75-100%
INCL
Nº de curvas de nível (100 m) num raio de 2 km
RELE
Para Eor, devido à escassez de dados, apenas se efectuaram testes univariados por
forma a detectar diferenças na presença e ausência entre esta espécie e Mle para cada
variável considerada.
2.4.2. Análise univariada
Para testar diferenças entre os três níveis de abundância de Mle relativamente a cada
variável quantitativa foi usado o teste ANOVA de Kruskal-Wallis (Zar, 1984). No caso das
variáveis qualitativas, foram realizados testes de χ2 com base em tabelas de contingência
de modo a testar se os três níveis de abundância estavam distribuídos aleatoriamente nas
categorias das variáveis.
28
2. Metodologia
2.4.3 Análise multivariada
Ajustou-se uma árvore de classificação segundo o procedimento descrito na secção 2.3.3.3.
De forma a escolher o grau de simplificação da árvore de classificação recorreu-se às
funções prune.tree, prune.misclass e cv.tree do programa S-PLUS (Clark & Pregibon, 1992;
Statistical Sciences, 1995; Venables & Ripley, 1997). As duas primeiras funções permitem
graficar, respectivamente, a evolução do deviance e do erro de classificação à medida que
se “podam” os ramos terminais da árvore original. A função cv.tree efectua uma validação
cruzada para um grau crescente de simplificação da árvore. Esta função divide a amostra
de treino em 10 subamostras, ajusta uma árvore com base em 9 e testa-a com a décima. O
resultado para cada nível de simplificação é a média das validações das 10 árvores
possíveis, cada uma validada com a amostra que sobra, e pode ser expresso em termos de
deviance ou em termos de erro de classificação (Venables & Ripley, 1997). Esta função
serviu igualmente para validar o modelo final.
Foram ajustadas duas árvores de classificação: uma em que se consideraram todas
as variáveis e outra em que apenas se considerava a influência de características associadas
directamente aos meios aquáticos.
Para cada modelo construíram-se as matrizes de classificação e foram determinadas
as precisões do produtor e do utilizador (Congalton, 1991).
29
3. Resultados
3 RESULTADOS
3.1 Distribuição conhecida das espécies
Na figura 3.1 estão representadas as distribuições de Mle e de Eor em Portugal. Verifica-se
que Mle é muito mais comum do que Eor, possuindo-se informações sobre a sua
ocorrência em 340 quadrículas UTM 10 km x 10 km, correspondendo a cerca de 70% das
quadrículas amostradas. Esta espécie apresenta uma distribuição praticamente contínua a
sul do Rio Tejo. A Norte do Rio Tejo as observações são mais dispersas, excepto na região
de Castelo Branco/Tejo Internacional, e na região da Beira-Alta interior e Nordeste
Transmontano, ou seja, as observações vão-se dispersando no sentido SE para NW do país.
Não foram detectadas populações nem encontradas informações recentes sobre a
ocorrência desta espécie na região entre Douro e Minho.
Mauremys leprosa
Emys orbicularis
5
6
7
3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 34 5 6 7 8 9 0 1 2 3 4
46
45
44
43
42
41
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
MG
NG
PG
5
6
7
3 4 5 6 7 8 9 0 1 2 3 4 5 6 78 9 0 1 2 34 5 6 7 8 9 0 1 2 34
QG
46
MF
QF
ME
QE
MD
QD
MC
QC
MB
QB
PB
45
44
43
42
41
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
MG
NG
PG
QG
MF
QF
ME
QE
MD
QD
MC
QC
MB
QB
PB
Ausências
Presenças
Figura 3.1 Presença das espécies nas quadrículas UTM decaquilométricas (para Eor
estão representadas apenas as presenças).
31
3. Resultados
A informação sobre a ocorrência de Eor é, pelo contrário, muito escassa e dispersa,
possuindo-se informações sobre a sua presença em 49 quadrículas UTM 10 km x 10 km,
correspondendo a cerca de 10% das quadrículas amostradas. O padrão geral de distribuição
é semelhante ao de Mle, tendo uma distribuição predominantemente mediterrânea, tendo-se
no entanto detectado a sua ocorrência na região do Minho. Por outro lado, ao contrário de
Mle, não foram detectadas populações na região da Beira-Alta interior e Nordeste
Transmontano. Excepto numa quadrícula situada no Minho, a espécie ocorre sempre em
quadrículas de ocorrência de Mle.
Na tabela 3.1 apresentam-se os valores das medidas de raridade para as duas
espécies segundo o Índice de Raridade Global (IRG) e o Índice de Raridade Média Local
(IRML). Ambos os índices são consideravelmente mais elevados para Eor, podendo por isso
considerar-se, comparativamente a Mle, como uma espécie localmente rara.
Tabela 3.1 Índices de raridade por espécie (IRG - Índice de
Raridade Global; IRML - Índice de Raridade Média Local)
IRG
IRML
Mauremys leprosa
0.325
-0.412
Emys orbicularis
0.892
0.276
Espécie
3.2 Modelos preditivos da distribuição
3.2.1 Mauremys leprosa
3.2.1.1 Análise exploratória
Na tabela 3.2 encontra-se representada a matriz de correlações para as covariáveis
quantitativas da matriz de dados original. Apenas para dois pares de variáveis INSO/RADS e PREC/ESCO - os valores de correlação são superiores a 0.8.
32
3. Resultados
Tabela 3.2 Matriz de correlação para as covariáveis quantitativas (valores superiores a 0.80 a bold).
NORT
INSO
TEMP
PREC
HUMI
ESCO
EVAP
ALTI
ECOL
DPOP
SOLO
GEAD
RADS
EAST NORT INSO TEMP PREC HUMI ESCO EVAP ALTI ECOL DPOP SOLO GEAD
0.26
0.22
-0.72
-0.21 -0.65
0.55
-0.19
0.60
-0.73 -0.55
-0.39 -0.08 -0.09 -0.07
0.09
-0.12
0.61
-0.73 -0.56
0.06
0.95
-0.38
0.55
-0.69 -0.40
0.86
0.08
0.80
0.58
0.50
-0.33 -0.59
0.34
-0.31
0.40
0.09
-0.28 -0.61
0.52
0.67
-0.50
0.05
-0.54 -0.34 -0.66
-0.51
0.26
-0.39 -0.08
0.40
0.26
0.36
0.49
-0.26 -0.04
0.37
0.32
-0.25 -0.39
0.31
-0.11
0.37
0.09
0.58
-0.41 -0.08
0.49
0.43
-0.09 -0.33
0.08
-0.23
0.11
0.04
0.45
-0.35 -0.23
0.27
0.33
-0.72
0.46
-0.70 -0.06 -0.66 -0.75 -0.17
0.42
-0.44 -0.14 -0.17
0.83
Os resultados dos testes não paramétricos (Tabelas 3.3 A a 3.3 B) mostram que o
comportamento das covariáveis quantitativas é semelhante nas quatro matrizes de dados
criadas. Efectivamente, para todas as covariáveis, o teste de ANOVA de Kruskal-Wallis e
o teste da mediana, separadamente para presenças e ausências, não revelaram diferenças
significativas (p<0.05) entre as quatro matrizes. Em todas as matrizes e para a maioria das
variáveis, a classe ausência apresenta maior dispersão dos dados.
Os resultados do teste de Kolmogorov-Smirnov de duas amostras revelam que em
todas as matrizes as distribuições das covariáveis em cada classe da variável resposta não
são significativamente diferentes (p<0.05) para três variáveis: ALT, SOLO e GEAD. Na
primeira (Tabela 3.2 A) e na quarta matriz (Tabela 3.2 D), não ocorrem igualmente
diferenças significativas entre as duas classes, respectivamente para a variável TEMP e
HUMI. Nas matrizes restantes os valores de confiança para estas duas variáveis são sempre
mais baixos do que para as variáveis restantes.
Os testes de Mann-Whitney (Tabelas 3.3 A a 3.3 B) mostram que os locais de
presença de Mle apresentam valores médios significativamente mais elevados (p<0.05)
para as variáveis TEMP, INSO, RADS, ECOL e ESTE, e valores médios
significativamente mais baixos para as variáveis PREC, HUM, ESCO, EVAP, DPOP e
NORT. Os gráficos da figura 3.2 mostram como variam a média e a dispersão dos dados
com a ausência e a presença da espécie para estas variáveis. O mesmo teste mostra a
ausência de diferenças significativas entre os valores médios para as variáveis ALT, SOLO
e GEAD. Para a quarta matriz, tal como o resultado do teste anterior, não se observam
igualmente diferenças significativas entre as médias para a variável HUMI.
33
3. Resultados
Tabela 3.3(A) Matriz 4 - Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do
teste de Mann-Whitney (M.-W.) para cada variável quantitativa (SD - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
Ausências
Média
s
4.242
0.895
6.273
2.421
3.864
1.021
6.985
2.344
5.439
1.178
8.379
2.319
2.652
1.196
3.606
1.822
4.848
1.384
3.727
1.247
4.758
2.163
3.258
1.774
12.212
6.012
36.909
13.882
Presenças
Média
s
4.637
0.768
4.143
1.419
3.253
1.039
4.791
1.418
3.923
1.046
10.824
1.761
4.220
1.104
3.747
1.305
5.571
1.117
3.582
1.034
4.978
1.938
1.802
1.118
16.714
5.526
24.121
14.973
K. - S.
p
n.s.
< .001
< .010
< .001
< .001
< .001
< .001
n.s.
< .001
n.s.
n.s.
< .001
< .001
< .001
M. - W.
p
<.005
<.0001
<.0005
<.0001
<.0001
<.0001
<.0001
n.s
<.0001
n.s
n.s
<.0001
<.0001
<.0001
Tabela 3.3(B) Matriz 2 - Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do teste
de Mann-Whitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
Nº da coluna
Nº da linha
34
Ausências
Média
s
4.121
0.957
6.448
2.521
3.776
0.992
7.310
2.458
5.379
1.167
8.500
2.401
2.741
1.278
3.741
2.014
4.603
1.521
3.690
1.143
4.862
2.180
3.259
1.888
12.534
6.009
36.810
14.462
Presenças
Média
s
4.841
0.618
3.866
1.312
3.220
1.043
4.512
1.493
3.878
1.047
11.085
1.642
4.220
1.111
3.463
1.390
5.707
1.094
3.671
1.166
4.890
1.778
1.939
1.200
15.756
5.355
22.707
13.394
K. - S.
p
< .001
< .001
< .01
< .001
< .001
< .001
< .001
n.s.
< .001
n.s.
n.s.
< .001
< .001
< .001
M. - W.
p
<.0001
<.0001
<.005
<.0001
<.0001
<.0001
<.0001
n.s.
<.0001
n.s.
n.s.
<.0001
<.0005
<.0001
3. Resultados
Tabela 3.3(C) Matriz 3 - Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do
teste de Mann-Whitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
Nº da coluna
Nº da linha
Ausências
Média
s
4.143
0.948
6.349
2.424
3.730
1.096
7.016
2.530
5.286
1.263
8.571
2.388
2.762
1.292
3.778
1.879
4.841
1.526
3.619
1.224
4.778
2.210
3.127
1.718
12.651
5.982
37.000
14.507
Presenças
Média
s
4.616
0.800
4.267
1.662
3.140
0.922
4.895
1.645
3.988
1.046
10.686
1.917
4.233
1.081
3.779
1.418
5.593
1.131
3.721
1.059
5.116
1.711
1.895
1.302
16.581
5.012
24.558
14.914
K. - S.
p
< .05
< .001
< .01
< .001
< .001
< .001
< .001
n.s.
< .001
n.s.
n.s.
< .001
< .001
< .001
M. - W.
p
<.001
<.0001
<.0005
<.0001
<.0001
<.0001
<.0001
n.s.
<.0005
n.s.
n.s.
<.0001
<.0001
<.0001
Tabela 3.3(D) Matriz 4 - Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do
teste de Mann-Whitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
Ausências
Média
s
4.183
0.965
6.167
2.458
3.717
1.010
6.900
2.454
5.317
1.127
8.617
2.300
2.833
1.181
3.800
2.024
4.833
1.509
3.667
1.145
4.700
2.204
2.967
1.766
12.383
6.352
35.267
14.099
Presenças
Média
s
4.700
0.736
3.950
1.606
3.325
1.041
4.663
1.591
3.863
1.099
10.900
1.893
4.238
1.094
3.675
1.430
5.550
1.101
3.738
1.040
5.112
1.772
1.900
1.186
17.000
5.021
24.275
14.929
K. - S.
p
< .01
< .001
n.s.
< .001
< .001
< .001
< .001
n.s.
< .001
n.s.
n.s.
< .01
< .001
< .01
M. - W.
p
<.0005
<.0001
n.s.
<.0001
<.0001
<.0001
<.0001
n.s.
<.0005
n.s.
n.s.
<.0005
<.0001
<.0001
35
3. Resultados
Figura 3.2 Média ± Desvio padrão (SD) das variáveis quantitativas (testes de Mann-Whitney e
Kolmogorov-Smirnov significativos p<0.05) para cada classe. (continua na página seguinte).
36
3. Resultados
Figura 3.2 (continuação) Média ± Desvio padrão (SD) das variáveis quantitativas (testes de MannWhitney e Kolmogorov-Smirnov significativos p<0.05) para cada classe.
Os resultados dos testes de χ2 (Tabela 3.4) mostram algumas diferenças no
comportamento das covariáveis qualitativas nas quatro amostras. Verifica-se, porém, para
todas as matrizes, uma preferência significativa (p<0.01) de Mle por locais com a presença
de AZIN, CUARV, CABAV e com a ausência de RESI e PINH. Nos gráficos da figura 3.3
estão representados os histogramas por classe de presença/ausência da espécie destas
variáveis.
Tabela 3.4 Resultados dos testes de χ2 (1 grau de liberdade) para cada variável qualitativa (os valores
a bold são significativos a 99% de confiança; (+) - influência positiva sobre a presença, (-) - influência
negativa sobre a presença).
Variáveis
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
Matriz 1
X2
p
0.97
0.325
0.000 (-)
27.56
2.43
0 .119
2.25
0.134
22.52 0.000 (+)
2.38
0.123
0.009 (-)
6.93
0.004 (-)
8.53
0.72
0.398
0.19
0.660
Matriz 2
X2
p
0.02
0.885
0.000 (-)
29.88
4.30
0 .038
1.03
0 .310
0.000 (+)
18.22
0.12
0.724
0.000 (-)
20.96
0.05
0.825
1.65
0.200
5.14
0.023
Matriz 3
X2
p
0.000
0.998
0.000 (-)
22.05
6.29
0.012
0.38
0.537
14.73 0.000 (+)
2.33
0.127
0.003 (-)
9.15
1.85
0.173
0.69
0.406
4.58
0.032
Matriz 4
X2
p
0.180
0.669
28.95 0.000 (-)
4.64
0.031
0.52
0.472
12.72 0.000 (+)
6.90 0.009 (-)
9.07 0.003 (-)
6.93 0.009 (-)
0.01
0.921
5.53
0.019
37
3. Resultados
Cont.
MEDR
ALFA
AMEN
CUARV
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
X2
0.19
3.75
2.32
14.15
2.32
1.61
1.65
20.29
3.30
0.73
p
0.660
0 .053
0.128
0.000 (+)
0.128
0.204
0.199
0.000 (+)
0.069
0.393
X2
0.46
3.64
2.93
10.44
5.34
3.84
3.67
17.59
3.56
0.71
p
0.499
0 .056
0.087
0.001 (+)
0.021
0.050
0.056
0.000 (+)
0.059
0.399
X2
0.75
4.58
3.07
15.49
1.59
4.70
1.05
11.29
3.43
0.50
p
0.388
0.032
0.080
0.000 (+)
0.207
0.030
0.305
0.001 (+)
0.064
0.478
X2
0.09
4.75
3.19
10.77
13.17
6.35
3.19
11.25
1.01
0.76
p
0.770
0.029
0.074
0.001 (+)
0.000 (-)
0.012
0.074
0.001 (+)
0.315
0.385
Figura 3.3 Histogramas das variáveis qualitativas (testes χ2 significativos a p<0.05) para cada classe.
38
3. Resultados
3.2.1.2 Regressão logística
Análise univariada
Os resultados da regressão logística univariada (Tabela 3.5) não divergem do padrão geral
descrito atrás para os testes não paramétricos. A partir destes resultados foram
seleccionadas as variáveis a entrar na análise multivariada, estando as variáveis excluídas
representadas a bold na tabela 3.5. Note-se que as variáveis excluídas não foram as
mesmas para as diferentes matrizes.
Tabela 3.5 Resultado da regressão logística univariada para cada matriz de dados (LRS - decréscimo do
Deviance em relação ao modelo nulo, p(G) - resultado do teste G, p(t) - resultado do teste de Wald; * - não se
alcançou a convergência no cálculo dos parâmetros).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
MEDR
ALFA
AMEN
CUARV
Matriz 1
Matriz 2
Matriz 3
Matriz 4
LRS
p(G)
p(t)
LRS
p(G)
p(t)
LRS
p(G)
p(t)
LRS
8.506
41.79
12.95
45.80
59.65
47.38
57.46
0.32
12.75
0.64
0.46
34.06
21.81
26.64
0.98
28.02
2.48
6.30
24.66
2.35
6.87
8.53
0.71
0.20
0.20
4.39
2.64
14.38
0.004
<.001
<.001
<.001
<.001
<.001
<.001
0.569
<.001
0.424
0.500
<.001
<.001
<.001
0.321
<.001
0.115
0.043
<.001
0.125
0.009
0.004
0.401
0.656
0.656
0.036
0.104
<.001
0.005
<.001
<.001
<.001
<.001
<.001
<.001
0.570
<.001
0.425
0.501
<.001
<.001
<.001
0.327
<.001
0.122
0.136
<.001
0.139
0.010
0.004
0.403
0.661
0.661
0.087
0.163
<.001
26.34
50.64
9.83
55.72
51.53
46.61
44.03
0.94
23.30
0.01
0.01
22.60
10.76
30.53
0.02
30.45
4.41
1.05
20.01
0.123
21.59
0.049
1.62
6.16
0.49
4.28
3.39
10.58
<.001
<.001
0.002
<.001
<.001
<.001
<.001
0.332
<.001
0.923
0.933
<.001
0.001
<.001
0.886
<.001
0.036
0.306
<.001
0.726
<.001
0.825
0.203
0.013
0.486
0.039
0.066
0.001
<.001
<.001
0.003
<.001
<.001
<.001
<.001
0.333
<.001
0.923
0.933
<.001
0.002
<.001
0.885
<.001
0.040
0.312
<.001
0.725
<.001
0.825
0.219
0.052
0.508
0.091
0.123
0.001
10.46
34.06
12.33
33.86
41.45
31.83
47.16
0.00
11.62
0.30
1.12
22.36
17.88
23.62
0.00
22.28
6.47
0.39
15.94
2.31
9.11
6.90
0.68
5.42
0.74
5.42
3.55
15.83
0.001
<.001
<.001
<.001
<.001
<.001
<.001
0.997
<.001
0.585
0.289
<.001
<.001
<.001
1.000
<.001
0.011
0.535
<.001
0.128
0.003
0.009
0.409
0.020
0.390
0.020
0.059
<.001
0.002
<.001
<.001
<.001
<.001
<.001
<.001
0.996
0.002
0.585
0.293
<.001
<.001
<.001
0.998
<.001
0.013
0.537
<.001
0.142
0.003
0.009
0.411
0.064
0.407
0.064
0.116
<.001
12.33
36.36
4.972
37.28
48.98
35.92
44.17
0.19
10.30
0.15
1.52
16.84
21.15
18.08
0.18
29.65
4.76
0.52
13.66
7.35
9.07
6.94
0.01
p(G)
<.001
<.001
0.026
<.001
<.001
<.001
<.001
0.667
0.001
0.701
0.217
<.001
<.001
<.001
0.668
<.001
0.029
0.470
<.001
0.007
0.003
0.008
0.921
*
0.09 0.771
5.60 0.018
3.68 0.055
10.87 <.001
p(t)
0.001
<.001
0.030
<.001
<.001
<.001
<.001
0.667
0.003
0.701
0.221
<.001
<.001
<.001
0.670
<.001
0.033
0.473
<.001
0.030
0.004
0.009
0.921
0.770
0.060
0.110
0.001
39
3. Resultados
Cont.
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
2.29
1.62
1.84
22.18
3.28
0.130
0.202
0.175
<.001
0.70
*
0.132 5.27 0.022
0.205 3.90 0.048
0.230
*
<.001 18.75 <.001
0.71 3.51 0.061
*
0.025
0.051
1.57
4.75
1.15
<.001 11.96
0.063 3.40
0.53
0.210
0.029
0.284
<.001
0.065
0.465
0.211 13.92 <.001 0.002
0.031 6.45 0.011 0.013
0.328 3.68 0.055 0.110
0.001 11.88 <.001 0.001
0.067 1.00 0.317 0.316
*
0.489
Análise multivariada
Foram ajustados um total de 41 modelos, incluindo modelos com as variáveis de
localização (ESTE e NORT), com transformações das variáveis e com interacções entre
variáveis. Na tabela 3.6 estão representadas as frequências e a relação das covariáveis com
a variável resposta ajustada, incluindo as transformações e interacções, nos 41 modelos de
regressão. As variáveis mais importantes na ocorrência da espécie, tendo em conta a sua
frequência nos modelos e a sua frequência em relação às matrizes de treino que deram
origem aos modelos, são o escoamento (ESCO), a humidade relativa do ar (HUMI), a
radiação solar (RADS) e as variáveis de localização (ESTE e NORT). Entre as variáveis
qualitativas, a variável olival (OLIV) é a que surge com maior frequência. A interacção
entre covariáveis mais frequente nos modelos é a interacção entre a humidade e o
escoamento (HUMI*ESCO).
Tabela 3.6 Frequência total, frequência em relação às quatro matrizes de treino e relação das covariáveis
com a variável resposta ajustada.
Covariável
ESCO
HUM
RADS
ESTE
NORT
SOLO
EVAP
PREC
INSO
GEAD
ECOL
DPOP
OLIV
EUC
40
Frequência
18
16
10
10
10
9
7
6
3
3
2
2
12
9
Nº de matrizes Relação positiva Relação negativa
9
4
9
3
9
4
9
4
9
4
9
2
9
3
9
2
9
2
9
1
9
1
9
1
9
2
9
1
3. Resultados
Cont.
CARBS
PINH
FIG
CARV
(HUMI)2
ln(RADS)
ln(ESCO)
(EVAP)2
ln(ESTE)
(ECOL)2
HUMI*ESCO
RADS*GEAD
ln(RADS)*GEAD
PREC*RADS
HUMI*EVAP
HUMI*SOLO
INSO*ECOL
ALT*SOLO
ESTE*NORT
7
3
2
1
9
7
6
4
2
1
4
2
1
1
1
1
1
1
1
2
1
1
1
2
3
2
2
1
1
3
1
1
1
1
1
1
1
1
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
Os dez modelos com menores erros de classificação da amostra de validação estão
representados na tabela 3.7, por ordem decrescente da precisão de classificação. Para todos
os modelos o ponto de corte de 0.6 foi o que produziu taxas de classificação da amostra de
treino mais equilibradas, pelo que se utilizou este valor para determinar os valores de
precisão de classificação das amostras de validação. A maioria dos modelos têm origem
nas amostras de treino 3 e 4, excepto o primeiro que tem origem na amostra de treino 1. A
variável ESCO e respectiva transformação é a mais frequente, estando presente em oito dos
dez modelos. Seis dos modelos possuem as variáveis espaciais ESTE e NORT. As
variáveis HUMI e RADS e respectivas transformações surgem em quatro modelos.
41
3. Resultados
Tabela 3.7 Os dez modelos com menores erros de classificação da amostra de validação.
Modelo
Matriz
Fórmula
1
1
β0 +β1(PREC) + β2(HUMI) + β3(ESCO) + β4(EVAP) + β5(RADS)
2
3
β0 + β1(ESTE) + β2(NORT) + β3(OLI) + β4(PINH)
3
4
β0 + β1(NORT*ESTE) + β2(ESTE) + β3(EVAP)
4
4
β0 + β1(ESCO) + β2(ESTE) + β3(NORT) + β4(OLIV)
5
3
β0 + β1(PREC) + β2(HUMI) + β3(ESCO) + β4(RADS) + β5(SOLO) + β6(GEAD) + β7(FIGU)
6
4
β0 + β1(ln(ESCO)) + β2(DPOP) + β3(ln(EAST)) + β4(NORT) + β5 (CARV)
7
3
β0 + β1(PREC) + β2(HUMI)2 + β3(ESCO) + β4(ln(RADS)) + β5(SOLO) + β6(GEAD) + β7(FIGU)
8
4
β0 + β1(ln(ESCO)) + β2(ln(ESTE)) + β3(NORT)
9
3
β0 +β1(ESCO) + β2(HUMI)2 + β3(HUMI*SOLO) + β4(ln(RADS)) + β5(OLIV)
10
4
β0 + β1(ESCO) + β2(ESTE) + β3(NORT)
Selecção do modelo final
Na Figura 3.4 apresentam-se as percentagens de classificações correctas para um ponto de
corte de 0.6 e as estatísticas Deviance, para a amostra de treino e para a amostra de
validação. Os valores de deviance e da estatística de Pearson da amostra de treino, bem
como o valor tabelado de χ2, apresentam-se na tabela 3.8.
O modelo 6 apresenta as precisões de classificação mais elevadas e possui o menor
valor de D para a amostra de treino (Figura 3.4). Porém, a estatística de Pearson não é
significativa (X2 < χ2 0.001; Tabela 3.10) e apresenta os maiores valores médios de D e de
X2 (ponderados pelos respectivos graus de liberdade) para as amostras de validação (Figura
3.6).
O modelo 10 apresenta simultaneamente os valores médios mais baixos de D para
as amostras de validação (Figura 3.4). No entanto, apresenta menores valores médios de
precisão de classificação da amostra de validação, as precisões de classificação da amostra
de treino são também relativamente baixas e o respectivo valor de D ponderado pelos graus
de liberdade é o mais elevado (Figura 3.4).
Os modelos 2, 3 e 4 são os que apresentam valores mais equilibrados entre as
amostras de treino e de validação, no que se refere aos valores de precisão da classificação
e aos valores de D (Figura 3.4). Estes três modelos incluem, no entanto, as variáveis
espaciais (ESTE e NORT), possuindo assim um significado biológico pouco preciso.
O modelo 1, para além de possuir as melhores precisões de classificação das
amostras de validação, apresenta simultaneamente valores de precisão da classificação da
amostra de treino comparativamente elevados e valores de D da amostra de treino e das
42
3. Resultados
amostras de validação relativamente baixos (Figura 3.4). Por outro lado, inclui as cinco
variáveis macroclimáticas que surgiram com maior frequência nos modelos. Tendo em
consideração estas características e ao facto de possuir um razoável significado biológico,
considerou-se este modelo como o mais adequado para a modelação da distribuição da
86
1.2
84
1.0
82
0.8
80
0.6
78
0.4
D / g. l.
% de classificações correctas
espécie.
T.c. - validação
76
0.2
T.c. - treino
D/g.l. - validação
74
0.0
1
2
3
4
5
6
7
8
9
D/g.l. - treino
10
Modelos
Figura 3.4 Comparação entre as taxas de classificação (colunas) e os valores ponderados de deviance
(linhas) da amostra de treino e das amostras de validação.
Tabela 3.8 Valores das estatísticas deviance e de Pearson
(g. l. - graus de liberdade)
Modelo
g. l.
χ2 0.001
D
X2
1
151
210.57
121.61
162.21
2
144
202.31
126.81
187.29
3
136
192.82
117.13
178.94
4
135
191.63
114.74
168.24
5
141
198.75
122.61
127.62
6
134
190.44
103.55
213.67
7
141
198.75
119.37
126.17
8
136
192.82
113.76
126.94
9
143
201.12
125.07
139.07
10
136
192.82
119.25
131.95
43
3. Resultados
Diagnóstico e aperfeiçoamento do modelo
Na tabela 3.9 apresenta-se o sumário do modelo seleccionado, incluindo os resultados dos
testes t aos parâmetros, os valores do odds ratio e os respectivos intervalos de confiança.
Tabela 3.9 Sumário dos resultados do ajustamento do modelo 1 (LRS - teste G ou estatística do quociente de
verosimilhanças; s -desvio padrão).
Deviance = 121.613 (para 151 g.l.)
Termos
LRS = 92.037
Intervalo de confiança
Coeficientes
s
t
p
Odds ratio
3.627
1.708
2.123
0.034
37.600
1.316
-
1075
1.164
0.411
2.828
0.005
3.201
1.428
-
7.18
(HUMI)
-0.125
0.037
-3.425
<0.001
0.882
0.821
-
0.948
ESCO
-1.061
0.344
-3.086
0.002
0.346
0.176
-
0.680
-0.163
0.048
-3.384
<0.001
0.850
0.773
-
0.934
0.607
0.241
2.517
0.012
1.835
1.143
-
2.946
β0
PREC
2
(EVAP)
RADS
2
Na figura 3.5 encontra-se representada a relação de cada variável com a respectiva
variável ajustada, após o ajustamento de um modelo aditivo generalizado com as variáveis
do modelo 1. Verifica-se que para a variável PREC ocorre um desvio considerável à
linearidade. Entre as classes 2 e 7 a relação é linear positiva e a partir da classe 7 a relação
torna-se linear negativa. Para as restantes variáveis os desvios são claramente menores. Os
testes parciais incluídos no sumário do modelo aditivo generalizado (Tabela 3.10) indicamnos a importância da suavização para cada termo no modelo. Os testes são significativos
apenas para as variáveis PREC e ESCO.
Tendo em conta este diagnóstico, efectuaram-se transformações das duas variáveis
de modo a tornar a relação o mais linear possível, e testou-se o seu efeito no modelo
logístico. Para a variável PREC consideraram-se apenas as classes de 1 a 7, uma vez que a
maioria das observações se situavam neste intervalo, tendo as observações incluídas nas
classes de 8 a 13 sido afectas à classe 7. Para a variável ESCO efectuou-se uma
transformação polinomial. A transformação da variável PREC originou um decréscimo de
cerca de três valores no deviance da amostra de treino e um ligeiro aumento no valor
médio da taxa de classificação das amostras de validação. A transformação da variável
ESCO apenas teve um efeito significativo no modelo logístico quando se ajustou um
polinómio de quarto grau. Uma vez que tal procedimento aumentava demasiado a
complexidade do modelo optou-se por não transformar esta variável.
44
3. Resultados
Figura 3.5 Relação entre cada variável incluída no modelo 1 e a respectiva variável ajustada
com um modelo aditivo generalizado.
Tabela 3.10 - Sumário do modelo aditivo generalizado (s - função de
suavização, g. l. - graus de liberdade, LRS - teste G ou estatística de
quociente de verosimilhanças).
Deviance = 105.954 (para 136.535 g. l.) LRS = 107.696
Variáveis
g. l.
Teste χ2
p
s(PREC)
3.0
11.541
0.009
s(HUMID2)
2.9
0.644
0.873
s(ESCOA)
3.0
11.050
0.011
s(EVAP2)
2.7
1.564
0.611
s(RADSOL)
2.9
0.623
0.885
O modelo final
Na tabela 3.11 apresenta-se o sumário do resultado do ajustamento do modelo 1 após o reescalonamento da variável. Relativamente ao modelo anterior verifica-se um decréscimo
de 3.22 valores do deviance e um acréscimo de 0.391 no valor de t para a variável PREC.
Os coeficientes e os respectivos valores de t das restantes variáveis mantiveram-se
idênticos.
45
3. Resultados
Neste modelo, as covariáveis PREC e RADS possuem um efeito positivo na
ocorrência da espécie, ao passo que a (HUMI)2, o ESCO e a (EVAP)2 possuem um efeito
negativo. A PREC e o ESCO são as que provocam uma maior variação na probabilidade de
ocorrência por cada mudança unitária.
Tabela 3.11 Sumário dos resultados do ajustamento do modelo 1 após o re-escalonamento da variável PREC
(LRS - teste G ou estatística do quociente de verosimilhanças; s -desvio padrão).
Deviance = 118.392 (para 151 g.l.)
Termos
β0
LRS = 95.259
Coeficientes
s
t
p
Odds ratio
3.314
1.728
1.918
0.057
27.530
Intervalo de confiança
0.912
-
830.8
PREC
1.359
0.422
3.219
0.001
3.894
1.692
-
8.958
(HUMI)2
-0.126
0.037
-3.402
<0.001
0.882
0.820
-
0.949
ESCO
-1.090
0.336
-3.247
0.001
0.336
0.173
-
2.885
-0.176
0.049
-3.601
<0.001
0.839
0.761
-
0.924
0.579
0.244
2.374
0.018
1.785
1.104
-
2.885
(EVAP)
RADS
2
Na figura 3.6 está representada a variação das precisões de classificação da amostra
completa para pontos de corte sucessivamente maiores. Tal como para os modelos
anteriores, o ponto de corte de 0.6 é o que origina um maior equilíbrio entre as
percentagens de quadrículas de presença e de ausência bem classificadas.
Na tabela 3.12 apresentam-se as medidas de qualidade de ajustamento do modelo
para o melhor ponto de corte incluindo as precisões do produtor e do utilizador e os valores
absolutos e ponderados de deviance e de X
2
de Pearson. O modelo classifica
correctamente 80.72% do total de quadrículas amostradas e as quadrículas afectas a uma
das classes estão em média 80.22% bem classificadas. Quer em termos da precisão do
produtor quer em termos da precisão do utilizador o modelo classifica consideravelmente
melhor as quadrículas de presença.
46
3. Resultados
Precisão do produtor (%)
A
100
90
80
70
60
50
40
30
20
Total
Presenças
Ausências
10
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.7
0.8
0.9
Pontos de corte
B
Precisão do utilizador (%)
100
90
80
70
Média
60
Presenças
50
Ausências
40
0
0.1
0.2
0.3
0.4
0.5
0.6
1
Pontos de corte
Figura 3.6 Precisão de classificação da amostra completa para cada ponto de corte. A precisão do produtor; B - precisão do utilizador
Tabela 3.12 Medidas de qualidade de ajustamento do modelo para um ponto de corte de 0.6 (Aus.
- ausências; Pres. - presenças; * - valores médios).
Modelo
D
D/g.l.
X2
X2/g.l.
118.39
0.78
153.83
1.02
76.69* 83.14* 79.92*
133.03* 0.97*
80.24*
1.76*
76.80
517.47
875.99
1.51
Precisão do produtor
Precisão do utilizador
Aus.
Pres.
Total
Aus.
Pres.
Média
Amostra de
treino
80.60
83.52
82.28
77.94
85.39
81.67
Amostra de
validação
76.87* 82.77* 80.28*
Amostra
total
77.73
82.89
80.72
83.63
80.22
0.89
47
3. Resultados
Os gráficos de diagnóstico do modelo (Figura 3.7), mostram que os outliers mais
importantes correspondem a quadrículas de ausência da espécie, o que justifica os menores
valores de percentagem de quadrículas correctamente classificadas obtidos para esta classe.
Figura 3.7 Gráficos de diagnóstico da regressão logística
3.2.1.3 Árvores de classificação
Na tabela 3.13 apresentam-se as variáveis e o número de nós terminais dos oito modelos
resultantes, numerados por ordem decrescente do valor médio da precisão de classificação
das amostras de validação. Os modelos 3 e 4 são os que apresentam simultaneamente
menor número de variáveis e de nós terminais. As variáveis EVAP e RADS são as mais
frequentes, estando presentes em cinco dos oito modelos. As variáveis HUMI e ESTE
surgem em quatro modelos, a DPOP e a NORT em três, a ESCO, a PREC e a ECOL em
dois..
Tabela 3.13 As oito árvores de classificação resultantes por ordem decrescente do valor médio dos erros de
classificação das amostras de validação.
Matriz
Nº de nós terminais
Variáveis incluídas na árvore
1
2
6
PREC, EVAP, ESTE, NORT
2
1
8
HUMI, EVAP, ESCO, RADS, ALTI, SOLO, CUARV
3
3
5
PREC, HUMI, RADS, ECOL
4
1
5
EVAP, ESTE, NORT
5
4
7
TEMP, EVAP, RADS, GEAD, RESI, CARBR
6
3
8
HUMI, RADS, DPOP, ESTE, OLI, CARBS
7
2
6
HUMI, EVAP, ESCO, ECOL, DPOP
8
4
6
RADS, DPOP, ESTE, NORT, FOL
Modelo
48
3. Resultados
Por forma a facilitar as comparações estão representadas na figura 3.4 as
percentagens totais de classificações correctas (precisão total) e os valores do deviance
ponderados pelos graus de liberdade.
No que se refere à amostra de treino o modelo 2 é o que possui simultaneamente
maiores valores de precisão de classificação e menores valores de deviance ponderado
pelos graus de liberdade (Figura 3.8). No entanto, é o modelo mais complexo (Tabela 3.13)
e no que se refere às amostras de validação possui um valor médio de deviance
relativamente elevado (Figura 3.8).
O modelo 1 é o que apresenta globalmente as melhores medidas de qualidade de
ajustamento simultaneamente para a amostra de treino e para as amostras de validação
(Figura 3.8). Este modelo não foi seleccionado uma vez que inclui as variáveis espaciais
ESTE e NORT, sendo por isso limitado do ponto de vista da sua interpretação ecológica.
Assim, considerou-se o modelo 3 como o mais adequado uma vez que apresenta
medidas de qualidade de ajustamento bastante equilibradas entre a amostra de treino e as
amostras de validação (Figura 3.8). Por outro lado é um modelo simples, com quatro
88
1.8
86
1.6
1.4
84
1.2
82
1.0
80
0.8
78
D / g. l.
% de classificações correctas
variáveis e 5 nós terminais, e possui um razoável significado biológico.
0.6
76
0.4
T.c. - validação
T.c. - treino
74
0.2
D/g.l. - validação
72
0.0
D/g.l. - treino
1
2
3
4
5
6
7
8
Modelo
Figura 3.8 Comparação entre as precisões de classificação (colunas) e os valores ponderados de
deviance (linhas) da amostra de treino e das amostras de validação.
49
3. Resultados
Na figura 3.9 está representada a árvore de classificação referente ao modelo 3 com
a estrutura interna apresentada na tabela 3.14. Segundo o modelo a espécie ocorre para
valores de RADS superiores ou iguais a 3 (145Kcal/km2) e valores de PREC inferiores ou
iguais a 3 (500-600 mm), ou para valores de PREC superiores ou iguais a 4 (600-700mm)
e valores de HUMI inferiores ou iguais a 3 (70-75%) e classes de ECOL superiores ou
iguais
a
4
(desde
a
região
Sub-Montano
-
Termo-Subatlântico
à
região
Psamo/Eolo/Aluvio/Halo - Mediterrânico).
Note-se que o espaçamento entre os níveis é proporcional à importância do
respectivo nó. Assim, a separação com maior significado é introduzida pela variável
RADS, dando origem ao primeiro nó terminal (“ausência”) com uma probabilidade de erro
apenas de 0.09 (Tabela 3.14). Os nós terminais com maior probabilidade de erro são o
terceiro e o quinto, respectivamente com probabilidades de 0.333 e 0.307, correspondendo
ambos à resposta “ausência”. Os dois nós terminais correspondentes à resposta “presença”
possuem probabilidades de erro relativamente baixas (0.105 e 0.152). Deste modo, as
maiores probabilidades de erro deste modelo resultam da classificação como “ausência”
das quadrículas em que a radiação solar toma valores superiores à classe 2.
Figura 3.9 Árvore de classificação seleccionada.
50
3. Resultados
Tabela 3.14 Estrutura interna da árvore de classificação seleccionada (n - nº de
observações; D - deviance; * - nós terminais; os números dos nós
correspondem aos números da árvore original, antes de se proceder à sua
simplificação).
Nó
n
D
Resposta
Probabilidades
1) raiz 149 203.000 presença ( 0.4228, 0.5772 )
2) RADS<2.5 33
20.110 ausência ( 0.9091, 0.0909 ) *
3) RADS>2.5 116 138.500 presença ( 0.2845, 0.7155 )
6) PREC<3.5 38
25.570 presença ( 0.1053, 0.8947 ) *
7) PREC>3.5 78 102.900 presença ( 0.3718, 0.6282 )
14) HUMI<3.5 52
28) ECOL<3.5
53.660 presença ( 0.2115, 0.7885 )
6 7.638 ausência ( 0.6667, 0.3333 ) *
29) ECOL>3.5 46 39.230 presença ( 0.1522, 0.8478 ) *
15) HUMI>3.5 26 32.100 ausência ( 0.6923, 0.3077 ) *
Na tabela 3.15 apresentam-se as medidas de qualidade de ajustamento do modelo
incluindo as precisões do produtor e do utilizador, os valores de deviance e respectivos
valores ponderados pelos graus de liberdade. O modelo classifica correctamente 80.72%
do total de quadrículas amostradas e as quadrículas afectas a uma das classes estão em
média 80.29% bem classificadas. Em termos da precisão do produtor o modelo classifica
ligeiramente melhor as quadrículas de ausência. A precisão do utilizador é no entanto
consideravelmente superior para as quadrículas de presença.
Tabela 3.15 Medidas de qualidade de ajustamento do modelo para um ponto de
corte de 0.5 (Aus. - ausências; Pres. - presenças; * - valores médios).
Modelo
D
D/g.l.
80.31
124.65
0.87
85.33
78.95
136.84
0.97
85.76
80.29
535.16
0.92
Precisão do produtor
Precisão do utilizador
Aus.
Pres.
Total
Aus.
Pres.
Média
Amostra de
treino
82.54
84.88
83.89
73.31
87.01
Amostra de
validação
81.41
78.26
79.58
72.57
Amostra
completa
81.78
79.94
80.72
74.81
51
3. Resultados
3.2.1.4 Comparação e integração dos dois modelos
Os melhores modelos de distribuição de Mle segundo os duas abordagens estatísticas
adoptadas - árvores de classificação e regressão logística - apresentam em comum a
inclusão de três covariáveis: RADS, PREC e HUM. Para além destas covariáveis a árvore
de classificação inclui ainda a covariável ECOL e o modelo de regressão logística inclui
ainda as covariáveis ESCO e EVAP.
Na figura 3.10 apresentam-se os valores de precisão do ponto de vista do produtor
para a amostra original, segundo os dois modelos de distribuição. A precisão total é igual
para os dois modelos (80.72%), mas no modelo de regressão logística, ao contrário do que
sucede para a árvore de classificação, as quadrículas de presença são melhor classificadas
do que as de ausência. Por outro lado, para a árvore de classificação verifica-se um maior
equilíbrio entre as quadrículas de presença e de ausência bem classsificadas.
84
Precisão do produtor (%)
82
80
Ausência
78
Presença
76
Total
74
72
70
Árvore de
classificação
Regressão
logística
Figura 3.10 Precisão de classificação do ponto de vista do produtor das
quadrículas de ausência, de presença e do total da amostra original.
Do ponto de vista do utilizador (Figura 3.11), a precisão média de classificação dos
dois modelos resulta muito idêntica (80.29% para a árvore de classificação e 80.22% para
o modelo de regressão logística). Segundo ambos os modelos, a precisão do utilizador é
maior para as quadrículas de presença. Para o modelo de regressão logística há, no entanto,
um maior equilíbrio entre a precisão para as quadrículas de ausência e a precisão para as
quadrículas de presença.
52
3. Resultados
Em termos das medidas de qualidade de ajustamento baseadas nos resíduos, o
modelo de regressão logística apresenta menores valores de deviance residual para a
amostra original (Árvore de classificação: D = 535.16; Regressão logística: D = 517.47).
88
Precisão do utilizador (%)
86
84
82
Ausência
80
Presença
78
Média
76
74
72
70
Árvore de
classificação
Regressão
logística
Figura 3.11 Precisão de classificação do ponto de vista do utilizador das
quadrículas de ausência e de presença da amostra original e respectiva média.
Cerca de 83% das quadrículas da amostra original foram classificadas de igual
modo pela árvore de classificação e pelo modelo de regressão logística. Por outro lado,
cerca de 72% das quadrículas foram simultaneamente bem classificadas pelos dois
modelos.
Na tabela 3.16 apresentam-se as precisões de classificação da amostra completa
considerando apenas as quadrículas de consenso entre os dois modelos. Há um aumento de
confiança de 6.32% do ponto de vista do produtor em relação aos modelos considerados
separadamente avaliados com a amostra completa de quadrículas. Do ponto de vista do
utilizador esse aumento é de 6.30% em relação à precisão da árvore de classificação e de
6.37% em relação ao modelo de regressão logística. Por outro lado, existe para estas
quadrículas um maior equilíbrio entre as precisões de classificação para ausências e
presenças. Os valores de deviance ponderados pelos graus de liberdade para estas
quadrículas apresentam um decréscimo de 0.18 e de 0.16 valores em relação aos valores
obtidos, respectivamente, com a árvore de classificação e com o modelo de regressão
logística para o total de quadrículas amostradas.
53
3. Resultados
Tabela 3.16 Medidas de qualidade de ajustamento do modelo para as quadrículas de consenso entre
os modelos.
Precisões de classificação
Deviance dos resíduos
Precisão do produtor
Precisão do utilizador
Aus.
Pres.
Total
Aus.
Pres.
Média
D
D/g.l.
D
D/g.l.
86.21
87.63
87.04
83.33
89.86
86.59
355.27
0.74
349.27
0.73
54
Árvore de classificação
Regressão logística
3. Resultados
3.2.2 Emys orbicularis
3.2.2.1 Análise exploratória
Os resultados dos testes de Kolmogorov-Smirnov e dos testes de Mann-Whitney (Tabela
3.17) mostram que não ocorrem diferenças significativas (p<0.05) entre as duas classes,
respectivamente, nas distribuições e valores médios das covariáveis HUMI, ALTI, SOLO e
GEAD. Os gráficos da figura 3.12 mostram como variam a média e a dispersão dos dados
com a ausência e a presença da espécie para as variáveis onde se verificaram diferenças
significativas.
Tabela 3.17 Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do teste de
Mann-Whitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
Ausências
Média
s
4.167
0.930
6.208
2.501
4.000
0.899
6.875
2.481
5.396
1.267
8.375
2.321
2.604
1.198
3.542
1.901
4.729
1.469
3.729
1.216
4.792
2.163
3.208
1.762
12.250
6.296
36.771
14.227
Presenças
Média
s
4.767
0.504
3.433
1.569
3.867
1.008
3.967
1.650
3.667
1.322
11.433
1.888
4.767
1.278
2.767
1.382
6.100
1.029
3.267
1.285
4.167
1.877
1.767
1.501
15.400
5.506
17.367
11.657
K. - S.
p
< 0.05
< 0.001
n.s.
< 0.001
< 0.001
< 0.001
< 0.001
n.s.
< 0.001
n.s.
n.s.
< 0.01
< 0.01
< 0.001
M. - W.
p
<0.005
<0.0001
n.s.
<0.0001
<0.0001
<0.0001
<0.0001
n.s.
<0.0001
n.s.
n.s.
<0.0005
<0.05
<0.0001
Figura 3.12 Média ± Desvio padrão (SD) das variáveis quantitativas (testes de Mann-Whitney e
Kolmogorov-Smirnov significativos p<0.05) para cada classe. (continua na página seguinte).
55
3. Resultados
Figura 3.12 (continuação) Média ± Desvio padrão (SD) das variáveis quantitativas (testes de MannWhitney e Kolmogorov-Smirnov significativos p<0.05) para cada classe.
Quanto às variáveis quantitativas verifica-se uma preferência significativa (p<0.01)
de Eor por locais com a presença de AZIN, CUARV, CABAV e com a ausência de RESI e
56
3. Resultados
CARBS (Tabela 18). Nos gráficos da figura 3.13 estão representados os histogramas por
classe de presença/ausência da espécie destas variáveis.
2
Tabela 3.18 Resultados dos testes de χ (1 grau de
liberdade) para cada variável qualitativa (os valores a bold
são significativos a 99% de confiança; (+) - influência
positiva sobre a presença, (-) - influência negativa sobre a
presença).
Variáveis
X2 (1 g.l.)
p
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
MEDR
ALFA
AMEN
CUARV
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
0.390
20.850
0.240
0.390
15.350
1.300
3.980
4.150
0.03
2.380
1.280
3.280
3.280
7.800
7.170
0.150
0.630
15.170
2.650
1.620
0.532
<0.000 (-)
0.626
0.532
<0.000 (+)
0.253
0.046
0.042
0.852
0.123
0 .257
0.070
0.070
0.005 (+)
0.007 (-)
0.698
0.426
<0.000 (+)
0.103
0.203
Figura 3.13 Histogramas das variáveis qualitativas (testes χ2 significativos a p<0.05) para cada classe.
57
3. Resultados
Figura 3.13 (continuação) Histogramas das variáveis qualitativas (testes χ2 significativos a p<0.05)
para cada classe.
3.2.2.2 Regressão logística
Analise univariada
Na tabela 3.19 apresentam-se os resultados da regressão logística univariada para cada
covariável. O padrão encontrado é idêntico ao obtido com os testes não paramétricos,
excepto para seis variáveis qualitativas em que a convergência do algoritmo não foi
possível. Todas as variáveis quantitativas e nove variáveis qualitativas foram seleccionadas
à partida para o ajustamento dos modelos multivariados (Tabela 3.19).
58
3. Resultados
Tabela 3.19 Resultado da regressão logística univariada
(LRS - decréscimo do Deviance em relação ao modelo nulo,
p(G) - resultado do teste G, p(t) - resultado do teste de Wald;
* - não se alcançou a convergência no cálculo dos
parâmetros; valores a bold - variáveis excluídas da análise
multivariada).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
MEDR
ALFA
AMEN
CUARV
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
LRS
11.55
29.30
0.38
31.58
27.82
30.64
39.87
3.84
21.51
2.54
1.74
13.60
4.96
31.287
0.38
23.26
0.24
0.40
15.36
1.46
4.34
4.27
0.04
2.33
7.97
0.15
15.14
2.76
p(G)
p<.001
p<.001
0.539
p<.001
p<.001
p<.001
p<.001
0.050
p<.001
0.111
0.187
p<.001
0.026
p<.001
0.536
p<.001
0.628
0.527
p<.001
0.227
0.037
0.039
0.851
0.127
*
*
*
0.005
*
0.699
*
p<.001
0.097
*
p(t)
0.005
p<.001
0.540
p<.001
p<.001
p<.001
p<.001
0.062
p<.001
0.115
0.196
0.001
0.031
p<.001
0.534
p<.001
0.626
0.534
p<.001
0.278
0.056
0.045
0.853
0.161
0.006
0.698
p<.001
0.108
Analise multivariada
Para esta espécie foram obtidos nove modelos possíveis, incluindo modelos com as
variáveis de localização (ESTE e NORT), com transformações das variáveis e com
interacções entre variáveis. Para todos os modelos o melhor ponto de corte foi de 0.4. Na
tabela 3.20 apresentam-se as frequências com que surgem as covariáveis nos modelos e a
respectiva relação com os valores esperados da variável resposta. O termo mais frequente
nos modelos é a transformação logarítmica de ALTI, que aparece em cinco dos nove
modelos, tendo uma relação negativa com a probabilidade de presença da espécie. As
covariáveis não transformadas mais frequentes são a RADS e o NORT, surgindo em três
59
3. Resultados
dos nove modelos, estando relacionadas, respectivamente, positiva e negativamente com a
probabilidade de ocorrência da espécie.
Tabela 3.20 Frequência nos modelos e relação das covariáveis com o valor
esperado da variável resposta.
Covariável
RADS
NORT
ESTE
ESCO
ALTI
RESI
AZI
Ln(ALT)
(RADS)2
Ln(ESTE)
ESCO*RADS
RADS*Ln(ALTI)
NORT*ESTE
Frequência
3
3
2
1
1
1
1
5
1
1
1
1
1
Relação positiva Relação negativa
9
9
9
9
9
9
9
9
9
9
9
9
9
Os modelos obtidos encontram-se esquematizados na tabela 3.21, por ordem
decrescente dos erros de classificação da amostra de validação. Todos os modelos são
muito simples, com duas a três covariáveis. As variáveis espaciais surgem em quatro dos
nove modelos.
Tabela 3.21 Os nove modelos por ordem decrescente dos erros de
classificação da amostra de validação.
Modelo
Fórmula
1
β0 +β1(RADS) + β2(ESCO)
2
β0 + β1(NORT) + β2(AZI)
3
β0 + β1(ESTE) + β2(NORT*ESTE) + β3(ln(ALTI))
4
β0 + β1(RADS) + β2(ESCO*RADS)
5
β0 + β1(ln(ESTE)) + β2(NORT) + β3(ln(ALTI))
6
β0 + β1(ESTE) + β2(NORT) + β3(ALTI)
7
β0 + β1(RADS)2 + β2(ln(ALTI)) + β3(RES)
8
β0 + β1(RADS*ln(ALTI)) + β2(ln(ALTI)) + β3(RES)
9
β0 + β1(RADS) + β2(Ln(ALTI)
60
3. Resultados
Selecção do modelo final
Quanto às medidas de qualidade de ajustamento do modelo (Figura 3.14), os modelos 3 e 5
são os que apresentam globalmente os melhores valores, quer para a amostra de treino,
quer para a amostra de validação. Porém, estes modelos contêm as variáveis espaciais, não
tendo por isso sido seleccionados. O modelo 1 é o que melhor classifica a amostra de
validação, mas, no entanto, o resultado do teste X
2
de Pearson para este modelo não
resultou significativo (X2 < χ20.001; Tabela 3.22). O modelo 4, resultante da substituição no
modelo 1 da variável ESCO pela interacção ESCO*RADS, é um modelo com medidas
equilibradas entre as duas amostras e possui um significado biológico razoável, pelo que
foi escolhido como o mais adequado à modelação da distribuição desta espécie.
1.0
0.9
88
0.8
86
0.7
84
0.6
82
0.5
0.4
80
0.3
78
76
74
1
2
3
4
5
6
7
8
D / g. l.
% de classificações correctas
90
T.c. - validação
0.2
T.c. - treino
0.1
D/g.l. - validação
0.0
D/g.l. - treino
9
Modelos
Figura 3.14 Comparação entre as taxas de classificação (colunas) e os valores ponderados de
deviance (linhas) da amostra de treino e da amostra de validação.
61
3. Resultados
Tabela 3.22 Valores das estatísticas deviance e de Pearson
(g. l. - graus de liberdade)
Modelo
g. l.
χ2 0.001
D
X2
1
76
119.91
59.74
283.20
2
76
119.91
61.60
112.10
3
75
118.65
50.68
75.00
4
76
119.91
56.02
94.92
5
75
118.65
51.10
68.28
6
75
118.65
54.97
76.51
7
75
118.65
55.12
69.07
8
75
118.65
53.79
62.25
9
76
119.91
59.35
70.81
Diagnóstico do modelo
Na tabela 3.23 apresentam-se os resultados do ajustamento do modelo 4, incluindo os
valores dos coeficientes, testes t, os odds ratio e os respectivos intervalos de confiança.
Neste modelo, a covariável RADS apresenta um efeito positivo muito acentuado na
ocorrência da espécie, ao passo que a interacção entre ESCO e RADS possui um efeito
negativo e pouco acentuado.
Tabela 3.23 Sumário dos resultados do ajustamento do modelo 4 (LRS - teste G ou estatística do quociente
de verosimilhanças; s -desvio padrão).
Deviance = 56.021 (para 75 g.l.)
Termos
LRS = 47.919
Intervalo de confiança
Coeficientes
s
t
p
Odds ratio
-3.597
1.189
-3.025
0.003
0.027
0.003
-
0.282
RADS
1.880
0.427
4.407
<0.001
6.554
2.837
-
15.140
ESCO*RADS
-0.213
0.084
-2.555
0.011
0.808
0.686
-
0.952
β0
Na figura 3.15 está representada a variação das precisões de classificação correctas
da amostra completa, para pontos de corte sucessivamente mais elevados. O ponto de corte
de 0.4 é o que produz um maior equilíbrio entre as percentagens de quadrículas de
presença e de ausência bem classificadas.
62
3. Resultados
A
100
Precisão do produtor (%)
90
80
70
60
50
40
Total
30
Presenças
20
Ausências
10
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pontos de corte
B
Precisão do utilizador (%)
100
90
80
70
Média
Presenças
60
Ausências
50
40
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pontos de corte
Figura 3.15 Precisão de classificação da amostra completa para cada ponto de corte. A precisão do produtor; B - precisão do utilizador
Na tabela 3.24 apresentam-se os valores de precisão do produtor e do utilizador e os
valores absolutos e ponderados de deviance para a amostra de treino, para a de validação e
para a amostra completa. A árvore classifica correctamente 84.48 % do total de quadrículas
e em média 84.04% das quadrículas afectas a uma das classes estão bem classificadas. Em
termos de precisão do produtor da amostra completa o modelo tende a classificar
ligeiramente melhor as quadrículas de ausência. A precisão do utilizador é no entanto
superior para as quadrículas de presença.
63
3. Resultados
Tabela 3.24 Medidas de qualidade de ajustamento do modelo para um ponto de corte de 0.6 (Aus.
- ausências; Pres. - presenças).
Modelo
Precisão do produtor
Precisão do utilizador
Aus.
Pres.
D
D/g.l.
X2
X2/g.l.
Total
Aus.
Pres.
Média
Amostra de
treino
85.42 83.33 84.62
78.13
89.13
83.63
56.02
0.74
94.92
1.25
Amostra de
validação
84.21 84.21 84.21
84.21 84.21 86.55
23.14
0.66
19.03
0.54
Amostra
completa
85.07
80.39
79.16
0.70
113.95
1.01
83.67
84.48
87.69
84.04
Na figura 3.16 está representada a relação de cada variável com a respectiva
variável ajustada, após o ajustamento de um modelo aditivo generalizado com as variáveis
incluídas no modelo 4. Verifica-se um desvio à linearidade mais acentuado na covariável
RADS, confirmado pelo resultado dos testes estatísticos do modelo aditivo (Tabela 3.25).
Porém, verificou-se que o re-escalonamento da variável não provocava um acréscimo
significativo das medidas de qualidade de ajustamento do modelo.
Figura 3.16 Relação entre cada variável incluída no modelo 4 e a respectiva variável
ajustada com um modelo aditivo generalizado.
Tabela 3.25 Sumário do modelo aditivo generalizado (s - função de
suavização, g. l. - graus de liberdade, LRS - teste G ou estatística de
quociente de verosimilhanças).
Deviance = 47.707 (para 69.457 g. l.) LRS = 56.232
Variáveis
g. l.
Teste χ2
p
s(RADS)
2.8
6.291
0.082
s(ESCO*RADS)
2.8
2.274
0.477
64
3. Resultados
Os gráficos de diagnóstico do modelo (Figura 3.17), mostram que os outliers mais
importantes correspondem a quadrículas de presença da espécie, o que justifica os menores
valores de percentagem de quadrículas correctamente classificadas obtidos para esta classe.
Figura 3.17 Gráficos de diagnóstico da regressão logística
3.2.2.3 Árvores de classificação
Para esta espécie foi obtido apenas um modelo, uma vez que para ambas as
matrizes de treino (com e sem as variáveis ESTE e NORT), após as operações de “poda”,
as árvores resultaram iguais. O modelo resultante inclui as variáveis RADS, ESCO e
ECOL e possui 4 nós terminais (Figura 3.18).
Segundo o modelo a espécie ocorre para valores de RADS superiores ou iguais a 4
(150-155 kcal/cm2) e valores de ESCO inferiores ou iguais a 3 (50-100mm) ou para
valores de ESCO superiores ou iguais a 4 (100-150mm) e classes de ECOL superiores ou
iguais a 6 (apenas regiões mediterrânicas).
A covariável mais importante na discriminação das classes é a RADS, dando
origem a um nó terminal de “ausência” com uma probabilidade de erro apenas de 0.075
(Tabela 3.26). De seguida a covariável ESCO dá origem a um nó terminal de “presença”
com uma probabilidade de erro nula (Tabela 3.26). Por fim, a covariável ECOL origina
dois nós terminais, um de “ausência” e um de “presença”, ambos com uma probabilidade
de erro de 0.2857 (Tabela 3.26).
65
3. Resultados
Figura 3.18 Árvore de classificação.
Tabela 3.26 Estrutura interna da árvore de classificação (n - nº de observações;
D - deviance; * - nós terminais; os números dos nós correspondem aos
números da árvore original, antes de se proceder à sua simplificação).
Nó
n
1) raiz
78
D
103.900
Resposta
Probabilidades
ausência
( 0.6154, 0.3846 )
2) RADSOL<3.5
40
21.310
ausência
( 0.9250, 0.0750 ) *
3) RADSOL>3.5
38
45.730
presença
( 0.2895, 0.7105 )
6) ESCOA<3.5
10
0.000
presença
( 0.0000, 1.0000 ) *
7) ESCOA>3.5
28
37.520
presença
( 0.3929, 0.6071 )
14) ECOL<5.5
7
8.376
ausência
( 0.7143, 0.2857 ) *
15) ECOL>5.5
21 25.130
presença
( 0.2857, 0.7143 ) *
Na tabela 3.27 apresentam-se os valores de precisão do produtor e do utilizador e os
valores absolutos e ponderados de deviance, respectivamente, para as amostras de treino,
validação e completa. A árvore classifica correctamente 84.48 % do total de quadrículas e
em média 84.07% das quadrículas afectas a uma das classes estão bem classificadas. Em
termos de precisão do produtor da amostra completa, as quadrículas de presença são
ligeiramente melhor classificadas do que as de ausência. A precisão do utilizador é no
entanto superior para as quadrículas de ausência.
66
3. Resultados
Tabela 3.27 Medidas de qualidade de ajustamento do modelo para um ponto de
corte de 0.5 (Aus. - ausências; Pres. - presenças).
Modelo
D
D/g.l.
82.39
54.83
0.74
80.65
85.00
29.66
0.87
79.25
84.07
84.49
0.75
Precisão do produtor
Precisão do utilizador
Aus.
Total
Aus.
Pres.
Média
Amostra de
treino
87.50 83.33 85.90
87.50
77.27
Amostra de
validação
73.68 89.47 81.58
89.36
Amostra
completa
83.58
88.89
Pres.
85.71
84.48
3.2.2.4 Comparação e integração dos modelos
Os melhores modelos de distribuição de Eor segundo os duas abordagens estatísticas
adoptadas - árvores de classificação e regressão logística - apresentam em comum a
inclusão de duas covariáveis: RADS e ESCOA. Segundo ambos os modelos estas variáveis
interagem entre si no seu efeito sobre a presença da espécie. A árvore de classificação
inclui ainda a covariável ECOL.
Na figura 3.19 apresentam-se os valores de precisão do ponto de vista do produtor
para a amostra completa, segundo os dois modelos de distribuição de Eor. A precisão total
é igual para os dois modelos (84.48%), mas para a árvore de classificação, ao contrário do
que sucede para o modelo de regressão logística, as quadrículas de presença são melhor
classificadas do que as de ausência. Por outro lado, para o modelo de regressão logística
verifica-se um maior equilíbrio entre as quadrículas de presença e de ausência bem
classsificadas.
67
3. Resultados
86
Precisão do produtor (%)
85.5
85
84.5
Ausência
84
Presença
Total
83.5
83
82.5
82
Árvore de
classificação
Regressão
logística
Figura 3.19 Precisão de classificação do ponto de vista do produtor das
quadrículas de ausência, de presença e do total da amostra original.
Do ponto de vista do utilizador (Figura 3.20), a precisão média de classificação dos
dois modelos resulta muito idêntica (84.07% para a árvore de classificação e 80.04% para
o modelo de regressão logística). Ao passo que para a árvore de classificação a precisão do
utilizador é mais elevada na classificação das quadrículas de ausência, para a regressão
logística é mais elevada na classificação das quadrículas de presença. Para o modelo de
regressão logística há um maior equilíbrio entre a precisão para as ausências e a precisão
para as presenças.
Em termos das medidas de qualidade de ajustamento baseadas nos resíduos, o
modelo de regressão logística apresenta menores valores de deviance residual para a
amostra original (Árvore de classificação: D = 84.49; Regressão logística: D = 76.16).
90
Precisão do utilizador (%)
88
86
84
Ausência
82
Presença
80
Total
78
76
74
Árvore de
classificação
Regressão
logística
Figura 3.20 Precisão de classificação do ponto de vista do utilizador das
quadrículas de ausência e de presença da amostra original e respectiva média.
68
3. Resultados
Cerca de 90% das quadrículas da amostra completa foram classificadas de igual
modo pela árvore de classificação e pelo modelo de regressão logística. Por outro lado,
cerca de 79% das quadrículas foram simultaneamente bem classificadas pelos dois
modelos.
Na tabela 3.28 apresentam-se as precisões de classificação da amostra completa
considerando apenas as quadrículas de consenso entre os dois modelos. Há um aumento de
confiança de 3.98% do ponto de vista do produtor em relação aos modelos considerados
separadamente, avaliados com a amostra completa de quadrículas. Do ponto de vista do
utilizador esse aumento é de 4.39% em relação à precisão da árvore de classificação e de
4.42% em relação ao modelo de regressão logística. Os valores de deviance ponderados
pelos graus de liberdade para estas quadrículas apresentam um decréscimo de 0.12 e de 0.1
valores em relação aos valores obtidos, respectivamente, com a árvore de classificação e
com o modelo de regressão logística para o total de quadrículas amostradas.
Tabela 3.28 Medidas de qualidade de ajustamento do modelo para as quadrículas de consenso entre
os modelos.
Precisões de classificação
Deviance dos resíduos
Precisão do produtor
Precisão do utilizador
Árvore de classificação
Regressão logística
Aus.
Pres.
Total
Aus.
Pres.
Média
D
D/g.l.
D
D/g.l.
90.32
85.71
88.46
90.32
85.71
88.46
65.42
0.63
62.41
0.60
69
3. Resultados
3.3 Comparação entre a distribuição de Mauremys leprosa e de
Emys orbicularis
O resultado do teste de Kolmogorov-Smirnov para duas amostras (Tabela 3.29) revela a
ocorrência de diferenças significativas (p<0.05) entre as duas classes (presença das duas
espécies e presença apenas de Mle) nas distribuições de seis covariáveis quantitativas:
PREC, HUMI, ESCO, RADS, ALTI e NORT. Segundo o teste de Mann-Whitney (Tabela
3.29) ocorrem diferenças significativas (p<0.05) entre os valores médios das duas classes
em mais duas covariáveis: INSO e ECOL. As diferenças mais significativas verificam-se
nas covariáveis ESCO e ALTI (p<0.0005).
Os gráficos da figura 3.21 mostram como variam a média e a dispersão dos dados
com a ausência e a presença da espécie para as variáveis onde se verificaram diferenças
significativas. Nas quadrículas onde surgem as duas espécies os valores de HUMI e RADS
são tendencialmente mais elevados e os de PREC, ESCO, ALTI e NORT tendencialmente
mais baixos.
Tabela 3.29 Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do teste de MannWhitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
TEMP
PREC
HUMI
ESCO
EVAP
INSO
RADS
ALTI
ECOL
SOLO
GEAD
DPOP
ESTE
NORT
70
M. l.
Média
s
4.571
0.850
4.446
1.413
3.107
0.966
5.071
1.333
4.054
1.017
10.446
1.877
4.036
1.095
3.946
1.257
5.393
1.139
3.625
1.019
5.125
1.779
1.875
1.096
17.000
5.474
27.179
14.890
M. l. / E. o.
Média
s
4.767
0.504
3.433
1.569
3.867
1.008
3.967
1.650
3.667
1.322
11.433
1.888
4.767
1.278
2.767
1.382
6.100
1.029
3.267
1.285
4.167
1.877
1.767
1.501
15.400
5.506
17.367
11.657
K. - S.
p
n.s.
<0.05
<0.05
<0.05
n.s.
n.s.
<0.05
<0.05
n.s.
n.s.
n.s.
n.s.
n.s.
<0.05
M. - W.
p
n.s.
<0.005
<0.005
<0.0005
n.s.
<0.05
<0.005
<0.0005
<0.05
n.s.
n.s.
n.s.
n.s.
<0.005
3. Resultados
Figura 3.21 Média ± Desvio padrão (SD) das variáveis quantitativas (testes de Mann-Whitney e
Kolmogorov-Smirnov significativos p<0.05) para cada classe. (continua na página seguinte).
Figura 3.21 (continuação) Média ± Desvio padrão (SD) das variáveis quantitativas (testes de MannWhitney e Kolmogorov-Smirnov significativos p<0.05) para cada classe.
71
3. Resultados
No que se refere às covariáveis qualitativas, não se observa uma influência
significativa (p<0.01) de nenhuma das variáveis consideradas (Tabela 3.30).
2
Tabela 3.30 Resultados dos testes de χ (1 grau de
liberdade) para cada variável qualitativa (os valores a bold
são significativos a 99% de confiança; (+) - influência
positiva sobre a presença de ambas as espécies, (-) influência negativa sobre a presença de ambas as espécies).
Variáveis
X2 (1 g.l.)
p
FOLH
RESI
OLIV
SOBR
AZIN
CARV
PINH
EUCT
CAST
FIGU
MEDR
ALFA
AMEN
CUARV
CARBS
CARBR
CAVAB
CABAV
INCT
SAL
0.750
1.330
1.790
3.070
2.380
0.210
1.330
0.480
0.520
1.470
1.670
0.060
1.380
2.180
5.380
1.040
1.670
0.400
0.470
1.890
0.385
0.248
0.182
0.080
0.123
0.650
0.248
0.489
0.472
0.225
0.197
0.805
0.240
0.140
0.020
0.309
0 .197
0.526
0.494
0.169
72
3. Resultados
3.4 Representação geográfica dos modelos
3.4.1 Mauremys leprosa
Modelos probabilísticos
Nas figuras 3.22 A e B estão representadas as superfícies de probabilidade de ocorrência
de Mle em Portugal segundo, respectivamente, o modelo de regressão logística e o modelo
baseado em árvores de classificação. Em ambos os modelos as probabilidades de
ocorrência da espécie mais elevadas situam-se nas regiões do Alentejo, Algarve, Beira
Interior e Nordeste Transmontano. Note-se que modelo baseado em árvores de
classificação (Figura 3.22 B) é bastante mais simples, gerando apenas cinco níveis de
probabilidade, correspondentes ao número de nós terminais da árvore.
A
B
Figura 3.22 Superfície de probabilidade de ocorrência de Mle. A - Regressão logística; B - Árvore de
classificação.
73
3. Resultados
Para simplificar a representação do modelo de regressão logística (Figura 3.23)
consideraram-se três níveis de acordo com a relação entre as probabilidades (pontos de
corte) e as medidas de precisão do utilizador (ver secção 3.2.1.2, figura 3.6, pág.47): (1)
zona com uma precisão de classificação de ausências superior a 90% (aproximadamente
para probabilidades de ocorrência inferiores a 0.2), (2) zona de “confusão” (precisões
inferiores a 90%) e (3) zona com uma precisão de classificação de presenças superior a
90% (aproximadamente para probabilidades de ocorrência superiores a 0.8)
Figura 3.23 Modelo de regressão logística segundo níveis de precisão do utilizador.
74
3. Resultados
Modelos determinísticos
Quando se agrupam os níveis de probabilidade em classes de presença/ausência segundo os
melhores pontos de corte, originam-se os mapas das figuras 3.24 A e B , respeitantes ao
modelo de regressão logística e ao modelo baseado em árvores de classificação,
respectivamente. Nestes mapas estão representados também os locais de ocorrência
conhecidos para a espécie, de modo a permitir uma avaliação visual dos modelos. Verificase que segundo o modelo de regressão logística a área correspondente à classe de presença
(71.2% da área total) é consideravelmente superior à mesma área segundo o modelo
baseado em árvores de classificação (51% da área total).
A
B
Figura 3.24 Representação espacial dos modelos e locais de ocorrência de Mle (assinalados a branco).
A - Regressão logística; B - Árvore de classificação.
75
3. Resultados
Integração dos modelos
A figura 3.25 resulta da sobreposição dos mapas preditivos segundo os dois modelos
originando 3 tipos de áreas: duas áreas classificadas como ausência e como presença por
ambos os modelos (áreas de consenso) e uma área onde os resultados da classificação
foram diferentes para os dois modelos (área de discordância).
Figura 3.25 Sobreposição dos mapas resultantes dos dois modelos (os locais de
ocorrência estão assinalados a branco).
76
3. Resultados
3.4.2 Emys orbicularis
Modelos probabilísticos
As superfícies de probabilidade de ocorrência de Eor estão representadas nas figuras 3.26
A e B. Segundo ambos os modelos a maioria do território, principalmente a Norte do Tejo,
possui baixas probabilidades de ocorrência da espécie. Os modelos têm algumas
semelhanças entre si, diferindo sobretudo na sua complexidade. Para ambos os modelos as
maiores probabilidades de ocorrência situam-se principalmente nas zonas de planície
alentejana e costa algarvia, e as mais baixas situam-se a Norte do Tejo, nas serras algarvias
(Serras do Caldeirão, de Monchique e de Espinhaço de Cão) e alentejanas (Serras do
Cercal, de Grândola e de Monfurado).
A
B
Figura 3.26 Superfície de probabilidade de ocorrência de Eor. A - Regressão logística; B - Árvore de
classificação.
77
3. Resultados
Na figura 3.27 está representado o mapa simplificado relativo ao modelo de
regressão logística. Consideraram-se três níveis de acordo com a relação entre as
probabilidades (pontos de corte) e as medidas de precisão do utilizador (ver secção 3.2.2.2,
figura 3.15, pág. 63): (1) zona com uma precisão de classificação de ausências superior a
90% (aproximadamente para probabilidades de ocorrência inferiores a 0.3), (2) zona de
“confusão” (precisões inferiores a 90%) e (3) zona com uma precisão de classificação de
presenças superior a 90% (aproximadamente para probabilidades de ocorrência superiores
a 0.7).
Figura 3.27 Modelo de regressão logística segundo níveis de precisão do utilizador.
78
3. Resultados
Modelos determinísticos
Nas figuras 3.28 A e B estão representados os mapas preditivos da distribuição de Eor
segundo, respectivamente, o modelo de regressão logística e o modelo baseado em árvores
de classificação. Também se encontram assinalados os locais conhecidos de ocorrência. A
área de distribuição potencial da espécie não difere muito entre os dois modelos,
representando 35,7 % da área total para o modelo baseado em árvores de classificação e
34,3% da área total para o modelo de regressão logística. Ambos os modelos classificaram
erradamente como “ausência” alguns locais com populações conhecidas, tais como o Paul
da Tornada (Caldas da Rainha, Estremadura) e as Lagoas do Prado (Vila Verde, Minho).
A
B
Figura 3.28 Representação espacial dos modelos e locais de ocorrência de Eor (assinalados a branco). A
- Regressão logística; B - Árvore de classificação.
79
3. Resultados
Integração dos modelos
Na figura 3.29 estão representadas as áreas de consenso e de discordância entre os
modelos. Para esta espécie a área de discordância resultou relativamente pequena.
Figura 3.29 Sobreposição dos mapas resultantes dos dois modelos
(os locais de ocorrência estão assinalados a branco).
80
3. Resultados
3.5 Influência de variáveis locais
3.5.1 Mauremys leprosa
3.5.1.1 Análise univariada
Os testes ANOVA de Kruskal-Wallis (Tabela 3.31) mostram que ocorrem diferenças
significativas (p<0.01) entre os níveis de abundância para nove variáveis quantitativas:
LARG, PROF, VCOR, INSO, EMER, IMER, HERB, ARBS e ARBR. Os gráficos da
figura 3.30 mostram como variam a média e a dispersão dos dados com os níveis de
abundância para estas variáveis. A abundância de cágados parece assim estar
positivamente relacionada com a profundidade, a insolação, a cobertura de vegetação
emergente e imersa, e negativamente relacionada com a velocidade da corrente, o grau de
cobertura de vegetação herbácea, arbustiva e arbórea da margem. A largura é em média
superior e tem, simultaneamente, maior variação nos pontos onde se observaram níveis
intermédios de abundância.
Tabela 3.31 Resultados dos testes ANOVA de Kruskal-Wallis para cada variável
quantitativa. (+) - influência positiva na presença da espécie; (-) - influência negativa
sobre a presença da espécie; (n.s.) - resultado não significativo a 99% de confiança.
Variáveis
ALTI
RELE
LARG
PROF
VCOR
TURB
INSO
INCL
EMER
FLUT
IMER
HERB
ARBS
ARBR
“Rank”
Teste de Kruskal-Wallis
ausência
média
alta
H
p
8465.5
9591.5
7222
6544
10961
8005.5
7809
8084
7050.5
8879
7462.5
10520
10897.5
11477
18828
17820.5
19359.5
19827
17582
18896.5
18137
19112.5
18316.5
17838.5
17983.5
17389.5
16169
17110
3831.5
3713
4543.5
4754
2582
4223
5179
3928.5
5758
4407.5
5679
3215.5
39.68.5
2538
1.611
1.662
12.487
25.343
28.319
4.079
14.163
5.286
34.531
2.940
27.702
11.890
17.326
33.182
0.447 (n.s.)
0.436 (n.s.)
0.002 (+)
<0.000 (+)
<0.000 (-)
0.130 (n.s.)
0.001 (+)
0.071 (n.s)
<0.000 (+)
0.230 (n.s.)
<0.000 (+)
0.003 (-)
<0.000 (-)
<0.000 (-)
81
3. Resultados
Figura 3.30 Média ± Desvio padrão (SD) das variáveis quantitativas (testes de Kruskal-Wallis
significativos p<0.05) para cada classe. (continua na página seguinte).
82
3. Resultados
Figura 3.30 (continuação) Média ± Desvio padrão (SD) das variáveis quantitativas (testes de KruskalWallis significativos p<0.05) para cada classe.
Quanto às variáveis qualitativas, os testes de χ2 (Tabela 3.32) mostram que as
variáveis EOR, ORIE, HABI, e AFLO apresentam uma influência significativa (p<0.01) na
abundância da espécie. Nos gráficos da figura 3.31 estão representados os histogramas por
nível de abundância para estas variáveis. O nível de abundância da espécie parece estar
positivamente relacionado com a presença de Eor, com a presença de habitats palustre e
palustre-riverino e com a presença de substrato rochoso. A influência da orientação
dominante não é clara devido ao elevado número de classes.
2
Tabela 3.32 Resultados dos testes de χ para cada variável qualitativa. g. l.
- graus de liberdade; (+) - influência positiva na abundância da espécie; (-) influência negativa sobre a abundância da espécie; (n.s.) - resultado não
significativo a 99% de confiança.
Variáveis
g. l.
X2
p
EOR
ORIE
HABI
AFLO
CASC
AREN
LODO
2
14
12
1
1
1
1
30.619
36.697
129.576
10.233
1.082
6.630
0.329
<0.000 (+)
0.001
<0.000
0.006 (+)
0.582 (n.s.)
0.036 (n.s.)
0.848 (n.s.)
83
3. Resultados
2
Figura 3.31 Histogramas das variáveis qualitativas (testes de χ significativos p<0.01) para cada classe.
3.5.1.2 Análise multivariada
Modelo completo
O resultado do ajustamento da árvore de classificação em que todas as variáveis foram
inicialmente consideradas na análise (Figura 3.32) sugere que, para os diferentes tipos de
habitat considerados, diferentes variáveis associadas aos habitats aquáticos influenciam a
abundância das espécies. Com efeito, as duas separações principais são introduzidas pela
variável HABI, dando origem a três grupos de habitats: (1) habitats palustre, palustrelacustre e palustre-riverino; (2) habitat riverino; e (3) habitats lacustre, lacustre-palustre e
riverino-palustre.
Segundo este modelo, no primeiro grupo de habitats a abundância das espécie é alta
ou média. Neste grupo as variáveis EMER e PROF são as mais importantes na separação
entre os níveis médio e alto de abundância; as maiores abundâncias verificam-se para
maiores percentagens de cobertura de vegetação emergente (25% a 100%) ou para níveis
de profundidade intermédios (0.5 a 1 m).
84
3. Resultados
Nos habitats riverinos a espécie ou não ocorre ou surge com níveis intermédios de
abundância. As variáveis PROF, IMER e HERB são as que mais determinam a presença ou
ausência da espécie neste tipo de habitats; a espécie ocorre quando o nível de profundidade
é superior a 0.25 m, quando a percentagem de cobertura de vegetação imersa é superior a
50% ou quando a percentagem de cobertura de vegetação herbácea na margem é inferior a
25%.
No terceiro grupo de habitats a espécie surge com abundâncias intermédias ou
altas. Neste grupo as variáveis ARBR e INSO são as mais importantes na separação entre
os níveis médio e alto de abundância; as maiores abundâncias verificam-se para
percentagens de cobertura arbórea superiores a 50% e para níveis de insolação superiores a
2.
Na tabela 3.23 apresenta-se a estrutura interna da árvore de classificação que inclui
o número de casos, os valores de deviance e as probabilidades associadas a cada classe em
cada nó. Cerca de 65% das observações no primeiro grupo de habitats foram classificadas
no nível de abundância alta, 54% das observações do segundo grupo foram classificadas
no nível ausência, e 92% das observações no terceiro grupo foram classificadas no nível
média. A partir das probabilidades associadas aos nós terminais foi possível determinar a
precisão média de classificação da árvore para cada um dos três grupos de habitats. Assim,
para o primeiro grupo de habitats a probabilidade média de classificações correctas é de
81.65%, para o segundo grupo é de 83.02% e para o terceiro grupo é de 67.36%.
Figura 3.32 Árvore de classificação após as operações de poda.
85
3. Resultados
Tabela 3.33 Estrutura interna da árvore de classificação seleccionada (n - nº de
observações; D - deviance; * - nós terminais; os números dos nós
correspondem aos números da árvore original, antes de se proceder à sua
simplificação).
Nó
n
D
1) raiz 249
Resposta
466.80
Probabilidades (alta ausência média)
média
( 0.1285 0.2892 0.5823)
2) HABITATS:pal,pal/lac,pal/riv 49
4) EMER<1.5
32
53.15
8) PROF<3.5 20
alta
(0.0500 0.4500 0.5000)
5.00
média
(0.2000 0.8000 0.0000) *
alta
(0.0000 0.3333 0.6667) *
6.88 média
5) EMER>1.5 17 15.09 alta
84
(0.0833 0.9167 0.0000) *
(0.0588 0.0588 0.8824) *
3) HABITATS:lac,lac/pal,riv,riv/pal
6) HABITATS:riv
(0.5102 0.0612 0.4286)
(0.0625 0.6250 0.3125)
17) PROF>2.5 15 19.10
9) PROF>3.5 12
alta
média
34.23
16) PROF<2.5 5
85.99
123.20
200
312.30
ausência
média
(0.3450 0.6200 0.0350)
(0.5833 0.4048 0.0119)
12) PROF<1.5 23 13.59 ausência
(0.9130 0.0870 0.0000) *
13) PROF>1.5 61 93.12
(0.4590 0.5246 0.0164)
média
26) IMER<1.5 55 84.78 ausência
52) HERB<0.5 10
(0.5091 0.4727 0.0182)
6.50 média
(0.1000 0.9000 0.0000) *
53) HERB>0.5 45 68.30 ausência
(0.6000 0.3778 0.0222)
106) LARG<3.5 22 28.59 ausência
(0.7727 0.1818 0.0455) *
107) LARG>3.5 23 31.49
(0.4348 0.5652 0.0000) *
27) IMER>1.5
6
0.00 média
média
(0.0000 1.0000 0.0000) *
7) HABITATS:lac,lac/pal,riv/pal 116 151.50 média
(0.1724 0.7759 0.0517)
14) ARBR<1.5 60 39.42
média
(0.0667 0.9167 0.0167) *
15) ARBR>1.5 56 97.15
média
(0.2857 0.6250 0.0893)
30) INSOL<2.5 47 67.77 média
(0.3191 0.6596 0.0213) *
31) INSOL>2.5
(0.1111 0.4444 0.4444) *
9
17.37
alta
As medidas de qualidade de ajustamento do modelo apresentam-se na tabela 3.34.
O modelo classificou correctamente 77.5% dos pontos de amostragem com um valor
ponderado de deviance de 1.1. A validação cruzada resultou numa média de cerca de 70%
de classificações correctas e um valor médio ponderado de deviance de 1.9.
86
3. Resultados
Tabela 3.34 Medidas de qualidade de ajustamento do modelo à amostra de
treino e segundo a validação cruzada (D - deviance; g.l. - graus de liberdade =
237).
Precisão total (%)
D
D / g.l.
Amostra de treino
77.51
258.962
1.088
Validação cruzada
69.88
445.436
1.879
Os resultados da matriz de confusão estão representados graficamente na figura
3.33. Do ponto de vista da precisão do produtor (nº de observações pertencentes a
determinada classe que foram correctamente classificadas) cerca de 53% das observações
correspondentes ao nível ausência, 89% correspondentes ao nível média e 91%
correspondentes ao nível alta foram correctamente classificadas. Do ponto de vista da
precisão do utilizador (nº de observações afectas a uma classe e que na realidade são dessa
classe) cerca de 83% das observações classificadas como ausência, 79% classificadas
como média e 73% classificadas como alta, pertenciam realmente a essas classes.
Tanto do ponto de vista do produtor como do utilizador verificou-se um número
maior de trocas entre os níveis de abundância ausência e média e entre os níveis média e
alta do que entre os níveis ausência e alta.
87
3. Resultados
A
100%
Precisão do produtor (%)
90%
80%
70%
60%
50%
40%
...classificados como:
30%
20%
alta
10%
média
ausência
0%
ausência
média
alta
Níveis de abundância reais...
B
100%
Precisão do utilizador (%)
90%
80%
70%
60%
50%
40%
...que na realidade
ã
alta
30%
20%
média
10%
ausência
0%
ausência
média
alta
Níveis de abundância após a classificação...
Figura 3.33 Medidas de precisão (%) do ponto de vista do produtor (A) e do utilizador (B) obtidas a
partir da matriz de confusão.
Influência das características dos meios aquáticos
Na figura 3.34 está representada a árvore de classificação em que se considerou apenas o
efeito de variáveis associadas às características dos meios aquáticos (não entraram na
análise as variáveis: tipo de habitat, orientação, declive e altitude), apresentando-se a
estrutura interna na tabela 3.35. A separação mais importante é introduzida pela variável
PROF que dá origem ao único nó de ausência para valores inferiores a 0.25 m
88
3. Resultados
(probabilidade de 0.77) (Tabela 3.35). A segunda separação mais importante é introduzida
pela variável EMER. Para coberturas de vegetação emergente inferiores a 50%, as
variáveis com maior influência são a ARBR, a INSOL e a TURB na separação entre
abundâncias média e alta; dos quatro nós terminais apenas um corresponde a abundâncias
altas (probabilidade de 0.6) para coberturas de vegetação arbórea superiores a 50%, níveis
de insolação superiores a 2 e níveis de turbidez inferiores a 1. Para valores de cobertura de
vegetação emergente, a variável mais importante na discriminação entre abundâncias
médias e altas é a IMER; para valores de cobertura de vegetação imersa inferiores a 0.25 a
abundância é média (probabilidade de 0.73); para valores superiores a 25% a abundância é
alta (probabilidade de 0.7).
Figura 3.34 Árvore de classificação após as operações de poda.
89
3. Resultados
Tabela 3.35 Estrutura interna da árvore de classificação seleccionada (n - nº de
observações; D - deviance; * - nós terminais; os números dos nós
correspondem aos números da árvore original, antes de se proceder à sua
simplificação).
Nó
n
1) raiz
D
249
466.80
2) PROF<1.5 35
Resposta
média
Probabilidades (alta ausência média)
( 0.1285 0.2892 0.5823 )
37.63 ausência
3) PROF>1.5 214 384.20
( 0.0000 0.7714 0.2286 ) *
média ( 0.1495 0.2103 0.6402 )
6) EMER<1.5 176 287.40 média ( 0.0852 0.2386 0.6761 )
12) ARBR<1.5 88 112.10 média ( 0.1364 0.0682 0.7955 ) *
13) ARBR>1.5 88 142.00 média ( 0.0341 0.4091 0.5568 )
26) INSOL<2.5 77 104.50 média ( 0.0000 0.4156 0.5844 ) *
27) INSOL>2.5 11 23.98 ausência
( 0.2727 0.3636 0.3636 )
54) TURB<0.5 5 6.73 alta ( 0.6000 0.4000 0.0000 ) *
55) TURB>0.5 6 7.64 média ( 0.0000 0.3333 0.6667 ) *
7) EMER>1.5
38 69.48 média
( 0.4474 0.0790 0.4737 )
14) IMER<0.5 15 21.90 média ( 0.0667 0.2000 0.7333 ) *
15) IMER>0.5 23 28.27
alta
( 0.6957 0.0000 0.3043 ) *
A classificação obtida com este modelo, segundo as suas medidas da qualidade de
ajustamento (Tabela 3.36), apresenta piores resultados do que o modelo anterior, em que se
incluiu na análise todas as variáveis locais. O modelo classificou correctamente cerca de
70% dos pontos de amostragem, com uma deviance ponderada de 1.317. A validação
cruzada resultou numa média de cerca de 64% de classificações correctas e um valor
médio ponderado de deviance de 2.141.
Tabela 3.36 Medidas de qualidade de ajustamento do modelo à amostra de
treino e segundo a validação cruzada (D - deviance; g.l. - graus de liberdade =
242).
Precisão total (%)
D
D / g.l.
Amostra de treino
70.68
318.800
1.317
Validação cruzada
63.86
469.484
2.141
Os resultados da matriz de confusão estão representados graficamente na figura
3.35. Do ponto de vista da precisão do produtor foram correctamente classificadas cerca de
90
3. Resultados
38% das observações correspondentes ao nível ausência, 90% correspondentes ao nível
média e 59% correspondentes ao nível alta. Do ponto de vista da precisão do utilizador
cerca de 77% das observações classificadas como ausência, 70% classificadas como média
e 69% classificadas como alta, pertenciam realmente a essas classes.
Tal como para o modelo anterior, tanto do ponto de vista do produtor como do
utilizador verificou-se um número maior de trocas entre os níveis de abundância ausência
e média e entre os níveis média e alta do que entre os níveis ausência e alta.
A
100%
Precisão do produtor (%)
90%
80%
70%
60%
50%
40%
...classificados como:
30%
20%
alta
10%
média
ausência
0%
ausência
média
alta
Níveis de abundância reais...
B
100%
Precisão do utilizador (%)
90%
80%
70%
60%
50%
40%
...que na realidade
são:
alta
30%
20%
média
10%
ausência
0%
ausência
média
alta
Níveis de abundância após a classificação...
Figura 3.35 Medidas de precisão (%) do ponto de vista do produtor (A) e do utilizador (B) obtidas a
partir da matriz de confusão.
91
3. Resultados
3.5.2 Emys orbicularis
Os testes de Mann-Whitney (Tabela 3.37) mostram que ocorrem diferenças significativas
(p<0.05) entre os valores médios das variáveis quantitativas ALTI, RELE, VCOR, EMER,
IMER e ARBR, dos locais com apenas Mle e dos locais onde as duas espécies coexistem.
Os gráficos da figura 3.36 mostram como variam a média e a dispersão dos dados para
estas variáveis. Segundo os resultados Eor, relativamente a Mle, tende a ocupar habitats
aquáticos situados a menores altitudes, em regiões com menor relevo, com menor
velocidade da corrente, maior cobertura de vegetação emergente e imergente e com maior
cobertura de estrato arbóreo na margem. Estes resultados não são no entanto confirmados
pelo teste Kolmogorov-Smirnov (Tabela 3.37), significando que não existem diferenças
significativas nas distribuições das variáveis nas duas classes.
Tabela 3.37 Resultados do teste de Kolmogorov-Smirnov (K.-S.) e do teste de MannWhitney (M.-W.) para cada variável quantitativa (s - desvio padrão).
Variáveis
ALTI
RELE
LARG
PROF
VCOR
TURB
INSO
INCL
EMER
FLUT
IMER
HERB
ARBS
ARBR
92
Mle
Mle + Eor
K. - S.
M. - W.
Média
s
Média
s
p
p
160.46
2.19
23.15
2.76
0.62
1.26
2.20
1.24
0.65
0.24
0.84
1.33
1.57
1.41
129.36
1.800
58.47
1.04
0.74
0.99
0.77
0.53
0.77
0.62
0.81
0.87
0.99
1.02
88.00
1.05
20.45
2.75
0.25
1.35
2.45
1.25
1.05
0.25
1.50
1.25
1.65
0.75
103.75
1.10
31.67
1.12
0.44
0.93
0.69
0.64
0.83
0.55
0.89
0.91
0.88
0.97
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
n.s.
<0.01
<0.01
n.s.
n.s.
<0.05
n.s.
n.s.
n.s.
<0.05
n.s.
<0.01
n.s.
n.s.
<0.01
3. Resultados
Figura 3.36 Média ± Desvio padrão (SD) das variáveis quantitativas (testes deMann-Whitney significativos
p<0.05) para cada classe.
Quanto às variáveis qualitativas, os testes de χ2 (Tabela 3.38) mostram que as variáveis
MLE, HABI, e CASC apresentam uma influência significativa (p<0.01) na presença de
ambas as espécies relativamente à presença única de Mle. Nos gráficos da figura 3.37 estão
representados os histogramas por nível de abundância para estas variáveis. Segundo os
resultados a espécie apresenta uma maior tendência para ocupar locais com abundâncias
mais elevadas de Mle, surge com maior frequência em habitats palustres e palustresriverinos, e tem menor tendência para ocupar habitats com substrato de cascalho.
93
3. Resultados
2
Tabela 3.38 Resultados dos testes de χ para cada variável qualitativa. g. l.
- graus de liberdade; (+) - influência positiva na abundância da espécie; (-) influência negativa sobre a abundância da espécie; (n.s.) - resultado não
significativo a 99% de confiança.
Variáveis
MLE
ORIE
HABI
AFLO
CASC
AREN
LODO
g. l.
X2
p
2
7
6
1
1
1
1
11.53
6.575
20.140
0.392
6.937
0.293
0.208
<0.000 (+)
0.476 (n.s.)
<0.005
0.531 (n.s.)
<0.01 (-)
0.588 (n.s.)
0.656 (n.s.)
2
Figura 3.37 Histogramas das variáveis qualitativas (testes de χ significativos p<0.01) para cada classe.
94
4. Discussão
4. DISCUSSÃO
4.1 Interpretação ecológica dos modelos de distribuição
Os modelos de distribuição que foram produzidos explicaram uma percentagem razoável
(cerca de 80% para Mle e cerca de 84% para Eor) da distribuição observada das espécies à
escala e resolução adoptadas. Estas estimativas de precisão total foram da mesma ordem de
grandeza das obtidas em trabalhos idênticos (Walker, 1996; Pereira & Itami, 1991; Brito et
al., 1996), sendo raros os trabalhos onde os modelos ultrapassam os 90% de precisão (por
exemplo: Austin et al., 1996; Teixeira et al., 1996).
A precisão dos modelos de distribuição depende em grande medida da capacidade
preditiva das variáveis disponíveis e da resolução e robustez dos dados, mas também do
maior ou menor grau de exigência das espécies em relação a determinados factores. Por
exemplo, Teixeira et al. (1996) construiu modelos de regressão logística para uma espécie
com exigências ecológicas muito restritas (salamandra-dourada), tendo estimado uma
precisão total de 94.2%, sendo a sua presença fortemente influenciada pela precipitação e
declive.
A interpretação ecológica dos modelos é geralmente uma tarefa difícil, uma vez que
os factores envolvidos nos modelos podem não actuar directamente na distribuição das
espécies mas antes estar correlacionados ou interactuar com factores não considerados na
análise. Pode até suceder o caso extremo de nenhuma das variáveis incluídas num modelo
actuarem sobre as espécies. Por outro lado, outra dificuldade de interpretação advém do
facto das variáveis macro-ambientais influenciarem não apenas directamente a
distribuição, mas também o tipo de habitats disponíveis.
Numa tentativa de obviar parte do problema, recorde-se que se ajustaram um
grande número de modelos válidos, tendo-se seleccionado aquele que simultaneamente
possuía melhores medidas de qualidade de ajustamento e o maior significado possível à luz
dos conhecimentos sobre a ecologia das espécies. Partiu-se ainda do pressuposto que o
número de vezes que determinada variável entrava em modelos independentes era, de certo
modo, uma indicação da sua importância relativa na distribuição das espécies. Por último,
o número de vezes que as variáveis que eram simultaneamente incluídas nos modelos
segundo as duas técnicas de modelação adoptadas, foi também considerado como uma
medida da sua importância para a ocorrência da espécie.
95
4. Discussão
É importante salientar que as variáveis incluídas no Atlas do Ambiente de Portugal
são muito incompletas, faltando nomeadamente variáveis que reflictam a sua variação
sazonal, o que seria útil por exemplo para avaliar a instabilidade climática (Romero &
Real, 1996). Por outro lado, o grau de detalhe da cartografia das variáveis é muito baixo, o
que pode limitar a sua capacidade preditiva.
Mauremys leprosa
Para Mle as variáveis que surgiram mais do que duas vezes no conjunto dos modelos e
simultaneamente nas duas abordagens estatísticas utilizadas foram a radiação solar, a
evapotranspiração real, a humidade relativa, as variáveis espaciais (nº da linha e nº da
coluna na rede UTM 10 x 10 km), o escoamento, a precipitação e as regiões ecológicas
(informação fito-edafo-climática).
A elevada frequência de ocorrência nos modelos das variáveis espaciais mostra que
provavelmente existem outros factores importantes que estão correlacionados com elas.
Outra hipótese é a distribuição ser também influenciada por factores meramente
biogeográficos, ou seja, mesmo que em determinadas regiões hajam condições para a
ocorrência da espécie, ela não está presente porque outros factores (por exemplo barreiras
naturais) impediram a sua colonização. Estas variáveis nunca foram incluídas nos modelos
seleccionados, uma vez que retiravam o seu significado ecológico. Note-se que as restantes
seis variáveis mais importantes são todas de natureza climática, pelo que se deduz que o
clima é um factor importante na distribuição desta espécie.
O factor mais importante na ecologia dos répteis é a temperatura, uma vez que
dependem de fontes externas de calor para manterem a temperatura ideal à sobrevivência e
reprodução (Spellerberg, 1982; Heatwole & Taylor, 1987). Em última análise dependem da
energia radiante do sol, quer directamente (radiação directa) quer indirectamente (radiação
reflectida ou através de objectos aquecidos por energia radiante) (Heatwole & Taylor,
1987). Segundo os modelos obtidos, a variável temperatura média do ar por si só não se
revelou uma variável importante. Outras medidas de temperatura como os respectivos
máximos e mínimos, ou a temperatura média por estação do ano, contribuiriam certamente
com mais informação. Não obstante este facto e atendendo a que as tartarugas da família
Emydidae em geral controlam a temperatura através da menor ou maior exposição à
radiação solar directa (Crawford et al., 1983), medidas como a radiação solar ou a
insolação são provavelmente mais determinantes do que as medidas de temperatura. Com
96
4. Discussão
efeito, segundo os modelos obtidos a radiação solar é das variáveis mais importantes,
senão a mais importante, na distribuição desta espécie. Tal não é de estranhar uma vez que,
ao contrário, por exemplo, da insolação (nº de horas de exposição solar), esta variável é
uma medida da quantidade de energia radiante que chega ao solo. Segundo a árvore de
classificação a espécie ocorre apenas para valores de radiação solar superiores ou iguais a
145 kcal/cm2. Esta variável é provavelmente a que tem um efeito mais directo na presença
de Mle.
Uma vez que os cágados ocorrem em meios aquáticos, a precipitação é um factor
que pode influenciar a sua ocorrência. No entanto, segundo os modelos obtidos o seu efeito
não é muito evidente. De acordo com a árvore de classificação seleccionada, a espécie está
presente quando a precipitação é inferior a 600 mm. Para valores de precipitação
superiores, esta variável interage com as variáveis humidade e regiões ecológicas. No
entanto, o ajustamento do modelo aditivo generalizado baseado no primeiro modelo de
regressão logística seleccionado, mostra que a relação é positiva para valores de
precipitação inferiores a 1200 mm e negativa para valores superiores a este número. Estes
resultados contraditórios poderão estar relacionados com possíveis interacções com outras
variáveis. Porém, a precipitação apresenta certamente uma grande influência ao nível dos
habitats, uma vez que actua directamente na disponibilidade e no tipo predominante de
meios aquáticos. Pode ainda pensar-se que para valores baixos de precipitação o seu efeito
é positivo uma vez que determina a quantidade de água disponível; para valores elevados o
seu efeito é negativo uma vez que provoca um aumento da velocidade da corrente dos
cursos de água. Segundo os resultados do estudo da influência de variáveis locais na
abundância da espécie, a velocidade da corrente apresenta um efeito claramente negativo.
No caso do escoamento, que resulta em grande medida da quantidade de
precipitação e do declive dos terrenos, o seu efeito directo é mais evidente. Segundo os
modelos obtidos, esta variável apresenta um efeito marcadamente negativo sobre a
presença da espécie. A relação directa entre o escoamento e a velocidade da corrente nos
leitos dos cursos de água explica muito provavelmente este comportamento.
Quer a análise univariada quer os modelos obtidos mostram uma influência
considerável da evapotranspiração real na distribuição de Mle. Para todos os modelos a sua
influência na presença da espécie é negativo. Segundo três das oito árvores de classificação
ajustadas a espécie está presente apenas para valores de evapotranspiração inferiores ou
iguais a 700 mm (resultados não apresentados), sendo este o primeiro factor que divide a
raiz. Porém, o seu efeito directo sobre a espécie não é claro. Esta variável depende de
97
4. Discussão
muitos factores como a quantidade de água nos solos, da densidade de cobertura de
vegetação e da temperatura. É provável que este factor actue ao nível dos habitats,
nomeadamente no que se refere ao grau e tipo de cobertura das margens dos meios
aquáticos. Por outro lado, pode estar correlacionado com outras variáveis não disponíveis
que actuam directamente sobre a espécie.
Quanto à humidade, por um lado as análises univariadas não mostram uma
influência muito acentuada na presença da espécie, mas por outro lado surge num grande
número de modelos, incluindo os dois seleccionados. Nas árvores de classificação esta
variável surge principalmente nas separações com menor significado. De acordo com a
árvore de classificação seleccionada, a espécie está ausente para valores iguais ou
superiores a 75% de humidade. Segundo os modelos de regressão logística o seu efeito é
igualmente negativo, sendo a variável que mais vezes está incluída nos modelos. Uma vez
que se trata de uma espécie tipicamente aquática o papel da humidade no balanço hídrico é
muito reduzido, não sendo por isso à partida um factor limitante da sua presença. Tal como
a evapotranspiração, este factor deve actuar ao nível dos habitats ou estar correlacionado
com outra variável importante.
Quanto às regiões ecológicas, a sua categorização é baseada sobretudo nas
comunidades vegetais, resultando assim do efeito de uma gama diversificada de variáveis
climáticas. As regiões ecológicas devem portanto determinar os tipos de habitat aquático
dominantes. Para ambas as abordagens estatísticas, a percentagem de presenças da espécie
é maior para os climas de carácter mais mediterrâneos. Segundo a árvore de classificação a
espécie está presente nas quatro regiões mediterrâneas e ainda na região Sub-Montano Termo-Subatlântico.
Emys orbicularis
Quanto a Eor, foram simultaneamente incluídas nos dois modelos seleccionados as
variáveis radiação solar e escoamento. Tal como para a espécie anterior, a radiação solar
parece ser a variável mais importante para esta espécie. Segundo a árvore de classificação
a espécie ocorre apenas para valores de radiação solar superiores ou iguais a 150 kcal/cm2.
As considerações feitas para Mle aplicam-se igualmente a esta espécie.
Segundo as duas abordagens estatísticas, a radiação solar e o escoamento interagem
no efeito sobre a presença da espécie. Na regressão logística a interacção é expressa pelo
98
4. Discussão
produto entre as duas, tendo um efeito negativo na presença. Com a árvore de classificação
a interacção é expressa de uma forma mais simples: o escoamento apenas tem efeito para
valores de radiação solar superiores a 150 kcal/cm2.
Outro factor importante incluído na árvore de classificação é a região ecológica.
Segundo este modelo a espécie está presente, para valores de escoamento superiores a 100
mm, apenas nas três regiões de carácter mais mediterrânico.
Por último, apesar de não estar incluída no modelo de regressão logística
seleccionado, a variável altitude (e respectiva transformação logarítmica) surge em seis dos
nove modelos ajustados. Esta espécie tende a ocupar regiões de menor altitude, o que
também se verificou a nível local. Este efeito pode estar relacionado com uma preferência
mais marcada desta espécie por habitats palustres (confirmada pelo estudo do efeito das
variáveis locais), que dum modo geral são mais frequentes a baixas altitudes. Por outro
lado, se a espécie se encontra em regressão em Portugal, tenderá a ocupar apenas os
habitats de melhor qualidade.
4.2 Avaliação e interpretação dos modelos segundo a sua
representação geográfica
As precisões estimadas dos modelos podem ser extrapoladas com algum erro em termos de
área geográfica segundo a sua representação espacial. Assim, por exemplo, do ponto de
vista do produtor do mapa pode afirmar-se que cerca de 83% da área onde Mle está
presente (não esquecendo, porém, que a espécie se limita ao meio aquático) foi bem
classificada pela representação geográfica do modelo de regressão logística. Do ponto de
vista do utilizador do mapa pode afirmar-se que cerca de 84% da área representada como
estando a espécie presente está correctamente classificada.
Mauremys leprosa
As superfícies de probabilidade de ocorrência de Mle são bastante diferentes segundo os
dois métodos de modelação (Figura 3.22, pág. 73). Ao passo que no caso da árvore de
classificação apenas se geram cinco níveis de probabilidade correspondentes ao nós
terminais das árvores, no caso do modelo logístico as áreas possuem uma gama mais
contínua de probabilidades, resultando numa representação aparentemente mais realista.
99
4. Discussão
Quando se reclassifica a imagem correspondente ao modelo de regressão logística
de acordo com a distribuição da precisão do utilizador pelos pontos de corte, verifica-se
que uma grande parte das áreas mal classificadas situam-se na região periférica da
distribuição desta espécie (Figura 3.23, pág. 74), como por exemplo na Beira Litoral e
Estremadura. Esta “zona de confusão” pode ser interpretada como uma zona de maior
fragmentação da distribuição “sentida” pela resolução adoptada, uma vez que ocorre uma
“mistura” maior de quadrículas de presença com quadrículas de ausência. Este padrão
sugere a existência de um limite não “abrupto” da distribuição, estando de acordo com a
ideia de que as populações tendem a fragmentar-se no limite da área de distribuição,
restringindo-se apenas aos habitats mais propícios (Brown & Gibson, 1983). O erro de
classificação pode então em parte ser interpretado como uma medida do grau de
fragmentação da distribuição e, em última análise, da própria abundância das espécies.
Quanto aos mapas resultantes da classificação das imagens segundo os melhores
pontos de corte (Figura 3.24, pág. 75), o mapa relativo ao modelo de regressão logística
está, aparentemente, mais de acordo com a distribuição real da espécie. Tal não é de
estranhar, uma vez que apresenta valores de precisão das quadrículas de presença
superiores aos obtidos com a árvore de classificação. Por outro lado, os pontos de
ocorrência incluídos na área classificada como ausência não se encontram muito
distanciados dos limites da distribuição segundo o modelo de regressão logística.
A árvore de classificação, no entanto, classifica melhor as quadrículas de ausência,
pelo que se considerou importante integrar a informação dos dois modelos de modo a
definir “zonas de consenso” entre os dois modelos. Nestas zonas o grau de certeza da
classificação das áreas aumenta consideravelmente, segundo os resultados da precisão
quando se consideram apenas as quadrículas classificadas de igual modo pelos modelos
(secção 3.2.1.4, pág. 52).
No entanto, uma vez que se tem mais confiança nos dados de presença da espécie,
pensamos que o modelo que melhor reflecte a distribuição real da espécie é o modelo de
regressão logística.
Emys orbicularis
Tal como para a espécie anterior, a superfície de probabilidades resulta mais realista
segundo o modelo de regressão logística (Figura 3.26, pág. 77). Também para esta espécie
a “zona de confusão” situa-se nas regiões periféricas da distribuição, sobretudo no Alto
100
4. Discussão
Alentejo, nas serras do Algarvias e da costa Sudoeste e na região do Alto Douro. A “zona
de confusão” neste caso ocupa uma área substancialmente maior relativamente à área de
presença da espécie (133% da área de presença), do que no caso de Mle (43.7% da área de
presença). Isto deve-se a uma maior fragmentação da distribuição desta espécie, aliás
também confirmada pelo resultado do índice de raridade média local (Tabela 3.1, pág. 32).
Para Eor as precisões de classificação foram consideravelmente superiores do que
para Mle. No entanto, basearam-se numa amostra bastante mais reduzida, não tendo sido
construídos tantos modelos alternativos. Os mapas resultantes da classificação (Figura
3.27, pág. 78) são bastante idênticos entre os dois métodos, embora o mapa referente à
árvore de classificação esteja aparentemente um pouco mais de acordo com a distribuição
da espécie. Isto é confirmado pela precisão do produtor ligeiramente superior da árvore de
classificação para as quadrículas de presença. No entanto, ambos os modelos não
conseguiram prever a ocorrência da espécie em três pontos (situados na zona das Caldas da
Rainha, na zona da Golegã e no Minho, próximo de Vila Verde) que, por serem muito
distantes do limite da distribuição prevista, põem em causa a própria validade dos modelos.
De facto, os modelos revelaram-se muito eficazes na classificação da maioria das
quadrículas de presença uma vez que estas estão concentradas em regiões restritas do país.
A região classificada como ausência deverá ser então interpretada não como uma região de
ausência real das espécies, mas antes como uma região onde ocorre um elevado grau de
fragmentação, resultando em populações extremamente isoladas. Durante a fase terminal
deste trabalho foi-me relatada mais uma nova ocorrência desta espécie situada na região de
Chaves (Francisco Álvares, com. pess.), sendo de esperar que no futuro venham a ser
detectados novos pontos de ocorrência, situados igualmente muito longe dos limites de
distribuição segundo os modelos aqui apresentados.
A distribuição muito dispersa desta espécie e o facto de ser mais setentrional e
cosmopolita faz supor que esta deverá ter apresentado uma distribuição em Portugal
bastante mais alargada no passado, inclusivamente mais alargada do que a de Mle. Com
efeito, Bocage (1863 in Boscá, 1881) no século passado descreveu esta espécie como
sendo comum em Portugal. Estes resultados constituem então uma forte evidência da sua
regressão em Portugal.
101
4. Discussão
4.3 Influência de variáveis locais
A influência de variáveis locais foi estudada com um carácter mais exploratório e de
complemento à informação sobre a distribuição das espécies, sem a pretensão de se
efectuarem extrapolações e interpretações ecológicas muito exaustivas.
Mauremys leprosa
Esta espécie foi encontrada em todos as categorias de habitat aquático consideradas neste
trabalho. No entanto, os resultados da análise estatística univariada e dos modelos baseados
em árvores de classificação mostram uma clara preferência de Mle por habitats com uma
forte componente palustre, ou seja, ambientes de águas paradas, baixa profundidade e com
uma cobertura razoável de vegetação aquática. Segundo a árvore de classificação que
incluiu todas as variáveis consideradas, a espécie apenas está ausente em habitats riverinos
sem qualquer componente palustre, sobretudo em locais com profundidades inferiores a
0.25 m. De acordo com este modelo, verifica-se uma forte interacção entre a variável tipo
de habitat e as características associadas ao meio aquático; ou seja, em diferentes habitats
actuam diferentes factores na abundância, de forma mais ou menos complexa.
Segundo o modelo que entra em consideração apenas com as variáveis associadas
directamente às características dos meios aquáticos, a profundidade é o parâmetro mais
importante na presença desta espécie (ausente para profundidades inferiores a 0.25 m).
Para os locais onde a espécie ocorre, os factores mais importantes na abundância são a
cobertura de vegetação emergente e imersa. As maiores abundâncias verificam-se para
valores simultaneamente elevados destes factores.
A preferência por locais com maior cobertura de vegetação deve-se provavelmente
ao facto de constituir uma importante componente alimentar (Sidis & Gasith, 1985), de
albergar uma maior concentração de fauna aquática consumida por esta espécie e de
desempenhar um papel importante como abrigo. O maior grau de cobertura de vegetação
aquática pode também estar correlacionado com menores velocidades da corrente, que
dificultam a sua movimentação na água.
Para ambos os modelos, tanto do ponto de vista do produtor como do utilizador
verificou-se um número maior de trocas entre os níveis de abundância ausência e média e
entre os níveis média e alta do que entre os níveis ausência e alta. Apesar dos modelos
baseados em árvores de classificação não pressuporem à partida a existência de um
102
4. Discussão
gradiente entre as classes da variável resposta, este resultado sugere um padrão contínuo da
abundância ao longo de um gradiente ambiental.
Emys orbicularis
Esta espécie foi encontrada em todos as categorias de habitat aquático consideradas neste
trabalho, excepto em habitats de carácter lacustre, como por exemplo albufeiras. Alguns
dados estão de acordo com os modelos de distribuição, como é o caso da maior frequência
de presença em locais de menor altitude do que Mle. Um dado curioso é o facto da sua
presença ser mais frequente em locais onde se verificam maiores densidades de Mle. Isto
significa que as exigências ecológicas das duas espécies ao nível do habitat são muito
semelhantes, mas que Eor tende a não ocupar os habitats menos propícios. Este facto pode
ser mais um indício da sua regressão em Portugal, uma vez que, como já foi referido, as
populações sujeitas a uma grande fragmentação tendem a ocupar apenas os habitats de
melhor qualidade.
103
5. Considerações finais
5. CONSIDERAÇÕES FINAIS
Os resultados obtidos neste trabalho mostram que ambas as espécies de cágados
apresentam uma distribuição predominantemente mediterrânea em Portugal. Entre as
variáveis macro-ambientais disponíveis, a radiação solar é aquela que parece ter maior
influência na distribuição de ambas as espécies à escala geográfica. À escala local ambas
as espécies preferem habitats aquáticos de águas paradas, baixa profundidade e com uma
cobertura razoável de vegetação aquática. Para Emys orbicularis essa preferência parece
ser ainda mais marcada do que para Mauremys leprosa.
A distribuição de Emys orbicularis em Portugal contrasta com o seu padrão global
de distribuição; na Europa Emys orbicularis apresenta uma distribuição mais setentrional
do que Mauremys leprosa, estando à partida melhor adaptada a climas mais frios. A maior
frequência desta espécie no sul do país pode dever-se a uma maior disponibilidade de
habitats favoráveis nesta região. Por outro lado, se as suas populações estão em regressão,
a preferência por habitats favoráveis torna-se ainda mais vincada; é o que, de resto,
sugerem os resultados das análises efectuadas a nível local.
As metodologias empregues neste trabalho mostraram ser eficazes na modelação da
distribuição em Portugal das duas espécies de cágados. A regressão logística originou
modelos mais realistas, embora com uma interpretação bastante mais complexa do que as
árvores de classificação. No entanto, as medidas de precisão total dos modelos resultaram
muito semelhantes ou mesmo iguais.
Uma hipótese a considerar futuramente seria a de modelar a distribuição com base
no grau de isolamento de cada quadrícula de presença (utilizando por exemplo o índice de
raridade local - ver pág. 14), entendido como uma medida grosseira da abundância da
espécie. A “zona de confusão” seria certamente mais bem modelada resultando numa
maior precisão de classificação. A regressão logística ordinal e as árvores de regressão ou
classificação constituem dois métodos possíveis para a modelação de variáveis resposta
quantitativas.
Por outro lado, as árvores de classificação revelaram-se bastante úteis na análise
exploratória da influência de variáveis locais na abundância de Mauremys leprosa,
sobretudo atendendo às óbvias limitações da recolha dos dados, que impossibilitaram um
tratamento estatístico mais aprofundado.
105
5. Considerações finais
Os resultados obtidos com este trabalho reflectem razoavelmente bem o estado das
populações a nível nacional das duas espécies. Não se possuem dados históricos
suficientemente precisos para fundamentar uma eventual regressão de Emys orbicularis em
Portugal, embora a sua elevada fragmentação da distribuição e o seu declínio global em
toda a Europa constituam fortes indícios.
A situação das populações de Emys orbicularis em Portugal, comparativamente às
de Mauremys leprosa, nomeadamente em relação à sua raridade e às baixas densidades
observadas, podem ser o resultado de muitos factores, tais como: (1) o resultado da
ocorrência de flutuações naturais das populações, nomeadamente devido a factores
climáticos; (2) fenómenos de competição com Mauremys leprosa; (3) factores intrínsecos à
própria estratégia demográfica da espécie; (4) maior vulnerabilidade desta espécie à
alteração dos habitats e a agentes poluidores; (5) Portugal constituir o limite de distribuição
da espécie, sendo natural a fragmentação observada; (6) a conjugação de todos os factores
atrás mencionados. Apenas estudos mais aprofundados e comparativos da demografia,
genética de populações e biogeografia desta espécie poderão fornecer pistas nesse sentido.
Os dados obtidos com este trabalho, tais como a probabilidade de ocorrência, o
grau de fragmentação, o isolamento das populações e a coexistência das duas espécies,
complementadas com informações sobre a distribuição geográfica do grau de adequação
dos habitats e da abundância, serão úteis para a selecção de áreas prioritárias para a
conservação destas espécies a nível nacional.
106
6. Referências
6. REFERÊNCIAS
Amo, O. A. (1991). Estatus y distribuicion del galapago europeu (Emys orbicularis) en
Cataluña. VIII Trabada JuvesNat. Catalunya. 35-39.
Araújo, P. R., Segurado, P., & Raimundo, N. (1997). Bases para a conservação das
tartarugas de água doce, Mauremys leprosa e Emys orbicularis. Estudos de
Biologia e Conservação da Natureza, 24. Instituto da Conservação da Natureza,
Lisboa.
Astudillo, G., & Arano B. (1995). Europa y su Herpetofauna: responsabilidades de cada
pais en lo referente a su conservacion. Bol. Aso. Herpetol. Esp. 6, 14-45
Andries, A.M., Gulinck, H., & Herremans, M. (1994). Spatial modelling of the barn owl
Tyto alba habitat using landscape characteristics derived from SPOT data.
Ecography, 17, 278-287.
Antunez, A., & Mendoza, M. (1992). Factores que determinan el área de distribución
geográfica de las espécies: conceptos, modelos y métodos de análisis. In J.M.
Vargas, R. Real, & A. Antúnez (Eds.), Objectivos y Métodos Biogeográficos.
Aplicaciones en Herpetologia. (pp. 51-72). A.H.E, Madrid.
Anselin, L. (1993). Discrete space autoregressive models. In Goodchild, M.F., Parks, B.O.
& Steyaert, L.T.New (Eds) Environmental Modeling with GIS (pp. 454-469),
Oxford University Press, York.
Arnold, E.N., Burton, J.A., & Ovenden, D.W. (1978). A Field Guide to the Reptiles and
Amphibians of Britain and Europe. Collins, London.
Aspinall, R., & Veitch, N. (1993). Habitat Mapping from Satelite Imagery and Wildlife
Survey Data Using a Bayesian Modeling Procedure in a GIS. Photogrammetric
Engineering & Remote Sensing, 59, 537-543.
Augustin, N.H., Mugglestone, M.A., & Buckland, S.T. (1996). An autologistic model for
the spatial distribution of wildlife. Journal of Applied Ecology, 33, 339-347.
Austin, G.E., Thomas, C.J., Houston, D.C., & Thompson, B.A. (1996). Predicting the
spatial distribution of buzzard Buteo buteo nesting areas using Geographical
Information System and remote sensing. Journal of Applied Ecology, 33, 15411550.
Barbadillo, L.J. (1987). La Guia de INCAFO de los Anfibios Y Reptiles de la Peninsula
Iberica, Islas Baleares y Canarias. INCAFO, Madrid
Begon, M., Harper, J.L., & Townsend, C.R. (1996). Ecology. Blackwell Science, Oxford.
107
6. Referências
Berry, J.K. (1993). Cartographic modeling: the analytical capabilities of GIS. In M.F.
Goodchild, B.O. Parks, & L.T. Steyaert (Eds.), Environmental Modeling with
GIS. (pp. 58-74). Oxford University Press, New York.
Bons, J., & Geniez, P. (1996). Amphibiens et Reptiles du Maroc. Atlas biogeographique.
Asociación Herpetológica Española, Barcelona.
Boscá, E. (1881). Catalogue des reptiles et amphibiens de la Peninsule Iberique et des iles
Baléares. Bulletin de la Societé Zoologuique de France: 1-47.
Breininger, D.R., Provancha, M.J., & Smith, R.B. (1991). Mapping Florida Scrub Jay
Habitat for Purposes of Land-Use Management. Photogrammetric Engineering
& Remote Sensing, 57, 1467-1474.
Brito, J.C., Abreu, F.B., Paulo, O.S., Rosa, H.D., & Crespo, E.G. (1996). Distribution of
Schreiber's lizard (Lacerta Shreiberi) in Portugal: a predictive model.
Herpetolical Journal, 6, 43-47.
Brito, J.C., Crespo, E.G., & Paulo, O.S. (1999). Modelling wildlife distributions: logistic
multiple regression vs. overlap analisys. Ecography, 22, 251-260.
Brown, J.H., & Gibson, A.C. (1983). Biogeography. Mosby, St Louis.
Buckland, S.T., & Elston, D.A. (1993). Empirical models for the spatial distribution of
wildlife. Journal of Applied Ecology, 30, 478-495.
Chandler, S.K., Fraser, J.D., Buehler, D.A., & Seegar, J.K.D. (1995). Perch trees and
shoreline development as predictors of bald eagle distribution on Chesapeake
Bay. Journal of Wildlife Management, 59, 325-332.
C.N.A. (1983). Atlas do Ambiente. Direcção-Geral do Ambiente. Ministério do Ambiente e
dos Recursos Naturais, Lisboa.
Clark, J.D., Dunn, J.E., & Smith, K.G. (1993). A multivariate model of female black bear
habitat use for a geographic information system. Journal of Wildlife
Management, 57, 519-526.
Clark L.A., Pregibon, D. (1992). Tree-based Models. in Statistical Models in S. Chambers,
J. M., Hastie, T. J. (eds.). Chapman and Hall, New York.
Cliff, A.D. & Ord, J.K. (1998). Spatial autocorrelation, Pion Limited, London.
Congalton, R.C. (1991). A review of assessing the accuracy of classification of remotely
sensed data. Remote Sens. Environ. 37, 35-46.
Corbett, K. (1989). Conservation of European Reptiles & Amphibians. Cristopher Helm
Ltd, London.
Cox, C.B., & Moore, P.D. (2000). Biogeography. An Ecological and evolutionary
approach. Blackwell Science, Oxford.
108
6. Referências
Crawford, K.M., Spotila, J.R., & Standora, E.A. (1983). Operative environmental
temperature and basking behavior of the turtle Pseudemys scripta. Ecology
64(5), 989-999.
Crespo, E.G., & Oliveira, M.E. (1989). Atlas da Distribuição dos Anfíbios e Répteis de
Portugal Continental. Lisboa: S.N.P.R.C.N.
Da Silva, E. (1991). Contribucion al conocimiento de la biologia reproductora y dinamica
del crescimento oseo de Mauremys caspica leprosa (Schw. 1812). Resumo da
Tese de Doutoramento, Universidade de Extremadura, badajoz.
Eastman, J.R. (1990). IDRISI: AGrid-Based Geographic Information System. Version 3.2.
(Worcester, MA: Clark University Graduate School of Geography)
EGRET. (1991). EGRET: Statistical Analysis Package. Seattle: Statistics and
Epidiomological Research Corporation.
Ellison, A.M. (1996). An introduction to bayesian inference for ecological research and
environmental decision-making. Ecological Applications, 6, 1036-1046.
Ernst, C.H., & Barbour, R.W. (1989). Turtles of the world. Smithsonian Institution Press,
Washington, D.C.
Farinha, J.C., Costa, L.T., Zalidis, G., Mantzavelas, A., Fitoka, E., Hecker, N. & Tomàs
Vives, P. (1996). Mediterranean Wetland Inventory: Habitat Description
System..Medwet / Instituto da Conservação da Natureza (ICN) / Wetlands
International / Greek Biotope/Wetland Centre (EKBY) Publication.Volume III.
Forman, R.T.T. (1995). Land Mosaics. Cambridge University Press, Cambridge.
Franklin, J. (1998). Predicting the distribution of shrub species in southern California from
climate and terrain-derived variables. Journal of Vegetation Science, 9, 733-748.
Frisenda, S.,& Ballasina, D. (1990). Le Statut des Chéloniens Terrestres et d´Eau Douce en
Italie. Bull. Soc. Herp. Fr. 53,:18-23
Gaston, K.J., & Lawton, J.H. (1990). Effects of scale and habitat on the relationship
between regional distribution and local abundance. Oikos, 58, 329-335.
Gates, S., Gibbons, D.W., Lack, P.C., & Fuller, R.J. (1994). Declining farmland bird
species: modelling geographical patterns of abundance in Britain. In P.J.
Edwards, R.M. May, & N.R. Webb (Eds.), Large-scale ecology and
conservation biology. (pp. 153-177). Blackwell Scientific Publications, London.
Gilpin, M.E. (1987). Spatial structure and population vulnerability. In M.E. Soulé (Ed.),
Viable Populations for Conservation. (pp. 125-139). Cambridge Uinversity
Press, Cambridge
109
6. Referências
Hanski, I. (1996). Metapopulation ecology. In O.E. Rhodes, Jr (Ed.), Population dynamics
in ecological space and time. (pp. 13-43). University of Chicago Press, Chicago.
Hanski, I., & Gilpin, M.E. (1991). Metapopulation dynamics: brief history and conceptual
domain. Biological Journal of the Linnean Society, 42, 3-16.
Harding, P.T. (1991). National species distribution surveys. In F.B. Goldsmith (Ed.),
Monitoring for conservation and ecology. (pp. 133-154). Chapman & Hall,
London.
Harrison, S. (1994). Metapopulations and conservation. In P.J. Edwards, R.M. May, &
N.R. Webb (Eds.), Large-scale ecology and conservation biology. (pp. 111128). Blackwell Scientific Publications, London.
Haslett, J.R. (1990). Geographic information systems: a new approach to habitat definition
and the study of distributions. TREE, 5, 214-218.
Heatwole, H., & Taylor, J. (1987). Ecology of Reptiles. Surrey Beatty & Sons, Shipping
Norton.
Hill, M.O. (1991). Patterns of species distribution in Britain elucidated by canonical
correspondence analysis. Journal of Biogeography, 18, 247-255.
Hoef, J.M.V. (1996). Parametric empirical bayes methods for ecological applications.
Ecological Applications, 6(4), 1047-1055.
Hosmer Jr, D.W. & Lemeshow, S. (1989). Applied Logistic Regression. Wiley, New York.
Iverson, L.R. & Prasad, A.M. (1998). Predicting abundance of 80 tree species following
climate change in the Eastern United States. Ecological Monographs, 68(4),
465-485.
Johnston, C.A. (1998). Geographic Information Systems in Ecology. Blackwell Science,
Oxford.
Keller, C., Díaz-Paniagua C.,& Andreu A.C. (1994). Distribución de Mauremys leprosa y
Emys orbicularis en Doñana (SO de España). III Congresso Luso-español, VII
Congresso Español, Badajoz.
Kvamme, K.L. (1990). The fundamental principles and practice of predictive
archaeological modeling. In A. Voorrips (Ed.), Mathematics and information
science in archaeology: a flexible framework. (pp. 257-295). Holos-Verlag,
Bonn.
Kvamme, K.L. (1992). A predictive site location model on the high plains: an example
with an independent tes. Plains Anthropologist, 37, 19-40.
Lawton, J.H., Nee, S., Letcher, A.J., & Harvey, P.H. (1994). Animal distributions: patterns
and processes. In P.J. Edwards, R.M. May, & N.R. Webb (Eds.), Large-scale
110
6. Referências
ecology and conservation
Publications, London.
biology.
(pp.
41-58).
Blackwell
Scientific
Malkmus R. (1995). Die Amphibien und Reptilien Portugals, Madeiras und Der Azoren.
Westarp Wissenschaften, Magdeburg. 105-109.
Maurer, B.A. (1994). Geographical Population Analysis: Tools for the Analysis of
Biodiversity. Blackwell Science, Oxford.
May, R.M. (1994). The effects of spatial scale on ecological questions and answers. In P.J.
Edwards, R.M. May, & N.R. Webb (Eds.), Large-scale ecology and
conservation biology. (pp. 1-17). Blackwell Scientific Publications, London.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models. Chapman & Hall.
MicroImages (1997). The Map and Image Processing System version 5.7. Lincoln, USA.
Murphy, D.D. (1989). Conservation and confusion: Wrong species, wrong scale, wrong
conclusions. Conservation Biology, 3 (1), 82-84.
Nečas, P.; Modrý, D; Zavadil, V (1997). Czech Recent and Fossil Amphibians and
Reptiles. Edition Cuimaira, Frankfurt.
North, M.P., & Reynolds, J.H. (1996). Microhabitat analysis using radiotelemetry locations
and polytomous logistic regression. Journal of Wildlife Management, 60, 639653.
Ormsby, J.P., & Lunetta, R.S. (1987). Whitetail Deer Food Availability Maps from
Thematic Mapper Data. Photogrammetric Engineering & Remote Sensing, 53,
1585-1589.
Palmeirim, J.M. (1985). Using Landsat TM Imagery and Spatial Modeling in Automatic
Habitat Evaluation and Release Site Selection for the Ruffed Grouse
(Gallifomes: Tetraonidae). Proceedings 19th International Symposium of
Remote Sensing and Environment.
Parker, S. (1985). Predictive modeling of site settlement systems using multivariate
logistics. In C. Carr (Ed.), For concordance in archaeological analysis. (pp.
173-207). Westport, Kansas City.
Pereira, J.M.C., & Duckstein, L. (1993). A multiple criteria decision-making approach to
GIS-based land suitability evaluation. Int J Gographical Information Systems,
7, 407-424.
Pereira, J.M.C., & Itami, R.M. (1991). GIS-based Habitat Modeling Using Logistic
Multiple Regression: A Study of the Mt. Graham Red Squirrel.
Photogrammetric Engineering & Remote Sensing, 57, 1475-1486.
Rapoport, E.H. (1982). Aerography. Geographical strategies of species. Pergamon Press,
Oxford.
111
6. Referências
Rogers, D.J., & Williams, B.G. (1994). Tsetse distribution in Africa: seeing the wood and
the trees. In P.J. Edwards, R.M. May, & N.R. Webb (Eds.), Large-scale ecology
and conservation biology. (pp. 247-271). Blackwell Scientific Publications,
London.
Romero, J., & Real, R. (1996). Macroenvironmenteal factors as ultimate determinants of
distribution of common toad and natterjack toad in the south of Spain.
Ecography, 19, 305-312.
Segurado, P. (1996). Estudo da estrutura das populações e de alguns parâmetros
demográficos de Mauremys leprosa e de Emys orbicularis em Portugal. Actas do
IV Congresso Luso-Espanhol, VII Congresso Espanhol de Herpetologia. Porto.
Servan J., & Pieau C. (1984). La cistude d'Europe (Emys orbicularis): Mensuration d'oeufs
et de jeunes individus.Bull. Soc. Herp. Fr. 1984, 31:20-26
S.N.P.R.C.N.(ed.). (1990). Livro Vermelho dos Vertebrados de Portugal. Vol. I Mamíferos, Aves, Répteis e Anfíbios. Lisboa: S.N.P.R.C.N.
Sidis, I & Gasith, A. (1985). Food Habits of the Caspian Terrapin (Mauremys caspica
rivulata) in Unpolluted and Polluted Habitats in Israel. Journal of Herpetology.
19 (1), 108-115.
Spellerberg, I.F. (1982). Biology of Reptiles. An ecological approach. Blackie & Son Ltd,
London.
Spellerberg, I.F. (1992). Evaluation and assessment for conservation Chapman & Hall,
London.
Statistical Sciences (1995). S-PLUS Guide to Statistical and Mathematical Analysis,
Version 3.3.StatSci, MathSoft, Inc., Seatle.
Teixeira, J., Arntzen, J.W., Ferrand, N., & Alexandrino, J. (1996). Elaboração de um
modelo preditivo da distribuição de Chioglossa lusitanica em Portugal. Actas do
IV Congresso Luso-Espanhol, VII Congresso Espanhol de Herpetologia. Porto.
Trexler, J.C., & Travis, J. (1993). Nontraditional regression analysis. Ecology, 74, 16291637.
Vernaples W. N., & Ripley, B. D. (1997). Modern Applied Statistics with S-PLUS.
Springer-Verlag, New York.
Walker, P.A. (1990). Modelling wildlife distributions using a geographic information
system: Kangaroos in relation to climate. Journal of Biogeography, 17, 279-289.
Warren, R.E. (1990). Predictive modelling in archaeology: a primer. In K.M.S. Allen, S.W.
Green, & E.B.W. Zubrow (Eds.), Interpreting space: GIS and archaeology. (pp.
90-111). Taylor & Francis, London.
112
6. Referências
Zar, J.H. (1984). Biostatistical analysis. Prentice-Hall, New Jersey.
113
ANEXO I
SIGNIFICADO DAS CLASSES DAS VARIÁVEIS
Variáveis intervalares
Classes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
TEMP
ºC
PREC
mm
HUMI
%
ESCO
mm
EVAP
mm
INSO
nº horas
RADS
kcal
ALTI
m
GEADA
nº meses
DPOP
nº hab/km2
<7.5
7.5-10.0
10.0-12.5
12.5-15.0
15.0-17.5
17.5-20
<400
400-500
500-600
600-700
700-800
800-1000
1000-12000
1200-1400
1400-1600
1600-2000
2000-2400
2400-2800
>2800
<65
65-70
70-75
75-80
80-85
>85
<25
25-50
50-100
100-150
150-200
200-300
300-400
400-600
600-800
800-1000
1000-1400
1400-1800
1800-2200
>2200
<400
400-450
450-500
500-600
600-700
700-800
>800
<1800
1800-2000
2000-2100
2100-2200
2200-2300
2300-2400
2400-2500
2500-2600
2600-2700
2700-2800
2800-2900
2900-3000
3000-3100
>3100
<140
140-145
145-150
150-155
155-160
160-165
>165
0-50
50-100
100-200
200-400
400-700
700-1000
1000-1300
1300-1600
>1600
<1 mês
1-2 meses
2-3 meses
3-4 meses
4-5 meses
5-6 meses
6-7 meses
7-8 meses
8-9 meses
>9 meses
<20
20-50
50-100
100-250
250-500
500-1000
>1000
Variáveis nominais
Classes
1
2
3
4
5
6
7
8
ECOL
SOLO
Erminiana - Oro-Atlântica
Altimontano - 1000/1300 m
Montano - Sub-Atlântico - 700/100 m
Sub-Montano - Termo-Subatlântico - 400/700 m
Basal - Atlântico-Mediterrânico - <400 m
Basal - Mediterrânico - <400
Calco-Mediterr^nico
Psamo/Eolo/Aluvio/Halo - Mediterrânico
Dunas, Aluviões
Arenitos
Clacáreos
Xistos
Granitos