Tipos de estudo em ecologia • Que tipo de estudos se faz em ecologia? Ecologia Numérica Tipos de estudo em ecologia Tipos de estudo em ecologia Tipos de dados Escalas de medida • Nominais • Ordinais • Intervalados • Percentuais ou de razão Tipos de dados Escalas de medida • Nominais e.g. espécie, sexo, cor • Ordinais 1, 2, 3, 4 or A, B, C, D • Intervalados e.g. temperatura, escalas circulares de tempo • Percentuais ou de razão e.g. comprimento, peso, unidades de tempo, contagens Tipos de dados Tipos de dados Dados discretos e contínuos • Contínuos: quando existe uma infinidade de valores possíveis entre quaisquer dois valores e.g. comprimento • Discretos: quando existem valores impossíveis de obter entre duas medições e.g. contagens Dados medidos em escalas de razão, intervaladas ou ordinais podem ser contínuos ou discretos, enquanto que os registados em escalas nominais são sempre discretos Tipos de dados Tipos de dados Correcção e Precisão (accuracy e precision) Correcção e Precisão (accuracy e precision) • Correcção: é a proximidade de uma medida ao valor real. Está essencialmente relacionada com o instrumento de medida. • Correcção • Precisão: é a proximidade entre sucessivas medidas a • Precisão um mesmo item. Está essencialmente relacionada com o observador. Bias, viés ou enviesamento é a diferença entre a estimativa da medida e o seu valor real Tipos de dados Tipos de dados Correcção e Precisão Correcto e preciso Correcto e pouco preciso Correcção e Precisão Incorrecto e preciso Incorrecto e pouco preciso Correcto e preciso Correcto e pouco preciso Estimativas enviesadas Incorrecto e preciso Incorrecto e pouco preciso Tipos de dados Tipos de dados Números significativos Números significativos • Dados discretos: não há dúvidas! A utilização de Medida decimais não é apropriada e.g. Contagens de organismos: 3 indivíduos, 27 indivíduos usar 3,0 e 27,0 seria errado. 67 67.2 67.23 Limites 66.5 a 67.5 67.15 a 67.25 67.225 a 67.235 • Dados contínuos: são registados a um determinado nível de precisão e a utilização de diferentes números significativos tem as suas implicações Medida 31000 3.1 x 104 3.10 x 104 3.100 x 104 Probabilidades e estatísticas Probabilidades e estatísticas Um dos objectivos principais das análises estatísticas é fazer afirmações sobre uma qualquer população partindo de uma (pequena) amostra. Uma quantidade tal como uma medida de tendência central ou de dispersão que caracteriza a população é denominada parâmetro. Estimativas dos parâmetros são geralmente denominadas estatísticas. Limites Não é claro 3.05 x 104 a 3.15 x 104 3.095 x 104 a 3.105 x 104 3.0995 x 104 a 3.1005 x 104 População Amostragem Inferência Amostra Probabilidades e estatísticas Probabilidades e estatísticas Análise dos dados Conceitos básicos sobre amostragem • População (população estatística) • Unidade de amostragem • Método de amostragem • Amostra Probabilidades e estatísticas Análise exploratória de dados • Geralmente baseada em estatísticas descritivas e representações gráficas • As estatísticas descritivas mais frequentemente utilizadas são medidas de tendência central e de dispersão dos dados • Antes de qualquer procedimento analítico mais elaborado deve proceder-se á análise exploratória dos dados • Este tipo de análise permite-nos obter um maior conhecimento sobre os conjuntos de dados e identificar aspectos importantes par a selecção dos procedimentos a efectuar seguidamente Probabilidades e estatísticas Medidas de tendência central • • • • • Média Mediana Moda Quantis Ponto médio da amplitude Probabilidades e estatísticas Medidas de dispersão Probabilidades e estatísticas Distribuições de probabilidade • Amplitude • Amplitude interquantil • Variância O que significa a probabilidade de um evento? • Desvio-padrão • Coeficiente de variação Probabilidades e estatísticas Probabilidades • A Probabilidade pode tomar valores entre 0 e 1 • Zero significa que esse evento é impossível • Uma probabilidade de 1 significa que esse acontecimento é certo • O que significa uma probabilidade intermédia? Embora sejam conceitos intuitivos para a generalidade das pessoas é necessário definir algumas regras. Probabilidades e estatísticas Notação e terminologia • Designemos o evento por A. A probabilidade de um evento é geralmente escrita da seguinte forma P(A) or Pr(A) • O complementar de determinado evento é A’ (tudo menos aquele evento). A probabilidade de chover amanhã é 0.25?! P(A’) = 1 - P(A) Probabilidades e estatísticas Probabilidades e estatísticas Probabilidades • Uma probabilidade de 0.25 significa que será 3 vezes mais provável que não chova amanhã do que chova. P(não chover) = 1 - P(chover) = 0.75 0.75/0.25 = 3 A união de dois eventos consiste em tudo aquilo que estiver incluído em A ou B ou ambos. Se – – – – A = {chover amanhã} B = {chover amanhã e depois de amanhã} C = {3 peixes por arrasto} D = {4 ou 5 peixes por arrasto} • Uma determinada probabilidade pode ser interpretada como uma proporção da concretização desse evento numa base temporal alargada. Probabilidades e estatísticas Então Probabilidades e estatísticas P{A∪B} ≠ P{A} + P{B} – A∪B = {chover nos próximos dois dias} – C∪D = {3 a 5 peixes por arrasto} P{A∪B} ≠ P{A} + P{B}, P{C∪D} = P{C} + P{D}, porque apenas C e D são mutuamente exclusivos. P{A∪B} = P{A} + P{B} - P{A∩B} Probabilidades e estatísticas Probabilidades e estatísticas P{A∪B} = P{A} + P{B} - P{A∩B} P{A∩B} = P{A∪B} - P{A} - P{B} P{C∪D} = P{C} + P{D}, Probabilidades e estatísticas Probabilidade condicional e independência • Se a probabilidade de um evento for alterada pela ocorrência de outro evento. Seja A = {rain today}, B = {rain tomorrow}, C = {rain in 90 days time} • É provável que o conhecimento que A ocorreu possa alterar o valor de P para o evento B, mas não para o caso C. P{C∩D} = {Ø} Probabilidades e estatísticas Probabilidade condicional e independência • Probabilidade de B, dado A: P(B|A) ≠ P(B) P(C|A) = P(C). P(B|A) • Diz-se que A e C são acontecimentos independentes se P(A∩C) = P(A) x P(C) Probabilidades e estatísticas Probabilidade condicional e independência – Axiomática Probabilidades e estatísticas Variáveis aleatórias Frequentemente medidos valores de variáveis que variam consoante escalas temporais ou espaciais. baseada em Axiomas e teoremas de probalidade – Subjectiva avaliação pessoal da possibilidade de ocorrência de um evento (teoria da decisão/ teoria da decisão Bayesiana). Além disso, os valores de determinadas variáveis estão sujeitos a processos aleatórios ou estocásticos que afectam essas variáveis – estas não são completamente previsíveis e, portanto, não são determinísticas. São as denominadas variáveis aleatórias. São exemplo a temperatura da água, salinidade, turbidez, caudal de um rio, etc. Probabilidades e estatísticas Distribuições de probabilidade Se medirmos uma variável aleatória muitas vezes, podemos construir uma distribuição de valores possíveis para essa variável. Se fosse possível registar múltiplos valores de uma variável nas mesmas condições obteríamos a distribuição de probabilidade dessa variável. Probabilidades e estatísticas Distribuições de probabilidade discretas Uma distribuição de probabilidade discreta associa um valor de probabilidade a cada valor que determinada variável discreta pode tomar. Exemplo 1. Variável aleatória com dois valores: Chover / Não chover. P(Chover) = 0.2, P(Não chover) = 0.8 Estas probabilidades constituem probabilidade desta variável a distribuição de Probabilidades e estatísticas Probabilidades e estatísticas Distribuições de probabilidade contínuas Devido ao facto das variáveis aleatórias contínuas poderem tomar todos os valores possíveis dentro de determinada amplitude de valores, não é possível associar valores de probabilidade a valores pontuais da variável. Distribuições de probabilidade contínuas • Para as variáveis aleatórias contínuas temos uma curva (linha) contínua de probabilidade designada por função densidade de probabilidade, a qual permite calcular a probabilidade num determinado intervalo. • Esta probabilidade é calculada como sendo a área definida pela curva (ou linha) da função densidade, entre os valores de interesse. Isto é muito, mesmo muito, Importante. NÃO ESQUECER! Probabilidades e estatísticas • A área total definida pela curva (linha) é igual a 1. Probabilidades e estatísticas Exemplo: Função densidade de probabilidade para a temperatura máxima do ar Exemplo: Função densidade de probabilidade para a temperatura máxima do ar P • A área total definida pela curva é 1. P • A área definida pela curva à esquerda de 20ºC é P(Tm) < 20ºC. 20 30 • A área entre 25ºC e 30ºC é P(25ºC<Tm<30ºC). • A área à direita de 32ºC é a probabilidade da Tm exceder 32ºC. 20 30 40 40 Probabilidades e estatísticas Famílias de distribuições de probabilidade • O número de diferentes distribuições de probabilidade é infinito. • As variáveis aleatórias com que trabalhamos são, quase invariavelmente, únicas! • No entanto, é frequente agrupar conjuntos de distribuições semelhantes em famílias de distribuições. Probabilidades e estatísticas Famílias de distribuições de probabilidade Exemplos de famílias de distribuições contínuas: Normal (Gaussiana) Exponencial Gama Beta Log-normal Weibull Probabilidades e estatísticas Famílias de distribuições de probabilidade Exemplos de famílias de distribuições discretas: Binomial Bernoulli Multinomial Binomial negativa Poisson Hipegeométrica Probabilidades e estatísticas Distribuição Binomial • Associada a fenómenos em que a resposta é sucesso / insucesso. • A probabilidade de sucesso é a mesma em cada realização. • Uma variável aleatória binomial traduz o nº de sucessos (X) em n testes. • Os pressupostos são a independência e p constante. Probabilidades e estatísticas Probabilidades e estatísticas Distribuição Binomial • É improvável que uma lei binomial seja uma boa descritora do nº de dias chuvosos, num período de 10 dias consecutivos, por causa da não-independênia destes eventos. • Provavelmente seria apropriada para descrever o nº de “Janeiros” sem neve num período de 20 anos, se, e só se, pudessemos aceitar a independência interanual destes eventos. Probabilidade de k sucessos - p(s = k) Distribuição Binomial 0,400 0,350 0,300 Probabilidade de Sucesso numa Tentativa 0,250 0,1 0,2 0,3 0,200 0,150 0,100 0,050 - 0 1 2 3 4 5 6 7 8 Número de sucessos (k) Probabilidades e estatísticas Distribuição Poisson Probabilidades e estatísticas Distribuição Poisson • A distribuição Poisson é geralmente adequada para descrever fenómenos raros. Por exemplo: • Nº de tempestades num período • Nº de períodos de cheia ou de seca • Os pressupostos são que os eventos ocorrem aleatoriamente num ritmo relativamente constante • A Poisson é uma boa aproximação à Binomial quando n é grande e p pequeno. µx P ( x) = e x! −µ 9 10 Probabilidades e estatísticas Probabilidades e estatísticas Probabilidade de k Ocorrências - p(s = k) Distribuição Poisson Distribuição Normal (Gaussiana) 0,40 0,35 A distribuição Normal (também conhecida como Gaussiana) é uma das distribuições contínuas mais utilizadas no âmbito da estatística inferencial. 0,30 Taxas de Chegada (Un./min.) 0,25 Tem uma forma em sino e a sua forma é definida por 2 parâmetros: 1 2 3 0,20 0,15 0,10 A média – a distribuição é simétrica em torno da média 0,05 0,00 0 1 2 3 4 5 6 7 8 Número de Ocorrências por Minuto (k) Probabilidades e estatísticas − 1 f ( x) = ∫ e − ∞σ 2π O desvio-padrão – determina a dispersão da distribuição. Probabilidades e estatísticas Distribuição Normal (Gaussiana) x 9 ( x−µ ) 2σ 2 2 Distribuição Normal (Gaussiana) Cerca de 2/3 da ditribuição está compreendida entre 1 d.p. em torno da média, e 95% entre 2 d.p. para cada lado em relação à média. Probabilidades e estatísticas Probabilidades e estatísticas Distribuição Normal (Gaussiana) 99.7% 95% 68% µ − 3σ µ − 2σ µ − σ µ Distribuição Normal (Gaussiana) Porque é que a distribuição Normal é tão importante na estatística? µ + σ µ + 2σ µ + 3σ Probabilidades e estatísticas Probabilidades e estatísticas Teorema do limite central (TLC) Teorema do limite central (TLC) Se forem recolhidas amostras aleatórias de dimensão n de uma população normal, a distribuição das médias destas amostras será uma distribuição Normal. A variância da população das médias decrescerá à medida que n aumenta: As distribuições das médias de populações não-normais tenderão para a normalidade à medida que n aumenta. 2 X σ = σ2 n Probabilidades e estatísticas Outras distribuições contínuas • Muitas variáveis apresentam desvios à normalidade pela falta de simetria. Probabilidades e estatísticas Uma distribuição com assimetria positiva 0,0600 0,0500 0,0400 • Um tipo comum de desvio é o chamado skewness (assimetria), que é verificado quando uma das caudas da distribuição é muito mais deprimida e alongada que a outra. 0,0300 0,0200 0,0100 Probabilidades e estatísticas 80 72 76 68 60 64 56 48 52 44 40 36 32 28 24 20 16 8 12 4 0,0000 0 • A assimetria (skewness) positiva é a mais comum (cauda alongada na parte direita da distribuição). Probabilidades e estatísticas Distribuição Beta Famílias de distribuições assimétricas 3,00 • Existe um grande número de distribuições assimétricas, muitas das quais se enquadram na família exponencial Weibull Gamma Log-normal 2,50 2,00 1,50 [2,6] [6,2 ] 1,00 -0,50 1,00 0,96 0,92 0,88 0,84 0,80 0,76 0,72 0,68 0,64 0,60 0,56 0,52 0,48 0,44 0,36 0,40 0,28 0,32 0,24 0,20 0,16 0,12 0,04 0,00 0,00 0,08 0,50 • Estas distribuições são definidas por dois ou mais parâmetros que lhes podem conferir formas muito diferenciadas. Probabilidades e estatísticas Probabilidades e estatísticas A determinação de probabilidades está associada a uma população, caracterizada através duma distribuição de probabiblidades, e consiste na previsão do que poderá acontecer quando retirada uma certa amostra. As estatísticas são determinadas a partir de amostras da população e servem para descrever os dados ou para inferir e tecer considerações sobre a população donde eram provenientes as amostras.