Monitoramento e Controle Ambiental Programa de Pós-Graduação em Meio Ambiente (PPG-MA) - UERJ UERJ – © Oscar Luiz Monteiro de Farias 1 Estatística e Geoestatística no Monitoramento Ambiental UERJ – © Oscar Luiz Monteiro de Farias 2 Métodos Estatísticos... • Métodos Estatísticos são necessários em MA porque em geral não é possível caracterizar-se uma situação pela observação direta. • Amostragem – método para obtenção de informações sobre parâmetros de interesse em localizações ou instantes de tempo específicos. • Alternativa à obtenção de informações sobre os parâmetros em todo o universo. • O uso de métodos estatísticos permite, a partir de informações parciais, inferir informações sobre o todo. UERJ – © Oscar Luiz Monteiro de Farias 3 Métodos Estatísticos... • Conjunto de dados univariável (univariate data set) • Conjunto de dados multivariável (multivariate data set) Ex.: quando se deseja analisar a concentração de vários contaminantes diferentes em uma dada área. • O conjunto de dados denomina-se amostra. Ele pode ser visto como um subconjunto dos valores possíveis que poderiam ser gerados caso coletássemos informações em todo o universo (área total, no caso). • Referimo-nos ao conjunto de todos os valores possíveis como população. UERJ – © Oscar Luiz Monteiro de Farias 4 Métodos Estatísticos... • Estatística Descritiva ou Exploratória – é usada para descrever as características básicas dos dados em estudo. • consiste em computar uma ou mais estatísticas resumo para uma amostra. • A estatística resumo é um número único que caracteriza um conjunto de dados de algum modo. • Freqüentemente inclui um ou mais gráficos. UERJ – © Oscar Luiz Monteiro de Farias 5 Métodos Estatísticos... • Estatística Inferencial – neste casos usa-se o conjunto de dados (sample data set) para se inferir algo sobre a população. • É uma boa prática se considerar a estatística descritiva ou exploratória, antes de se considerar a estatística inferencial. • Métodos estatísticos espaciais – incluem informações relacionadas à localização física da amostra. • Em problemas ambientais pode ser necessário o uso de métodos estatísticos espaço-temporais, em que, além das coordenadas espaciais é essencial o registro das coordenadas temporais. UERJ – © Oscar Luiz Monteiro de Farias 6 Métodos Estatísticos... • Em avaliação e MA o objetivo não se limita em caracterizar um local, mas em usar a informação para a tomada de decisões. • Tomar decisões sempre incorpora algum grau de risco (p. ex. o risco de se tomar a decisão errada). UERJ – © Oscar Luiz Monteiro de Farias 7 Amostras e população... • Uma amostra é um conjunto de observações individuais obtidas no processo de amostragem. • Cada observação pode representar múltiplos aspectos de informação, como, p.ex., a concentração de um ou mais contaminantes. • Este conjunto de números é chamado de dados (data). • Antes da coleta dos dados é necessário considerar a sua quantidade e o local de onde serão extraídos, bem como o método de monitoramento utilizado. UERJ – © Oscar Luiz Monteiro de Farias 8 Amostras e população... • Facilidade de acesso, tecnologia disponível, custos associados à coleta física das amostras e à posterior análise de laboratório podem limitar ou restringir a quantidade e a qualidade da informação obtida no processo de amostragem. • Isto pode afetar a confiabilidade das conclusões fundamentadas na análise estatística dos dados. • É sempre importante saber-se de antemão como os dados serão utilizados (quais as questões que serão respondidas e quão confiáveis as respostas deverão ser), antes da coleta de qualquer dado. UERJ – © Oscar Luiz Monteiro de Farias 9 Amostras e população... Considere, p. ex., a concentração de um elemento químico X em um terreno ... Existe uma concentração de X (dada por um valor numérico) em cada ponto do terreno, mas este conjunto (de números) não é diretamente observável (são incontáveis). Esse conjunto de números é denominado população. Se escolhermos um número p de pontos para mensurar a concentração de X, teremos p valores (p → tamanho da amostra; o conjunto de medidas → amostra) UERJ – © Oscar Luiz Monteiro de Farias 10 Amostras e população... • A validade das conclusões fundamentadas no uso de métodos estatísticos depende da criteriosa observação de algumas premissas. P.ex. Amostra Randômica (Random Sampling) – significa que a seleção de uma amostra é conduzida de tal forma que qualquer subconjunto (com tamanho fixo de amostra = n) da população tem igual probabilidade de ser selecionado. UERJ – © Oscar Luiz Monteiro de Farias 11 Suporte da Amostra... • Os valores dos dados freqüentemente representam propriedades associadas a um dado volume de matéria ou a uma determinada área. Este volume ou área é denominado suporte da amostra. • P.ex. a porosidade de um solo é determinada pela relação poros/volume. Poros grandes e fraturas de solo em rochas não podem ser detectados em núcleos de solo com suporte de pequeno volume. UERJ – © Oscar Luiz Monteiro de Farias 12 Suporte da Amostra... • A condutividade hidráulica e concentrações químicas são valores médios em um dado volume. Este volume monitorado é o suporte da amostra. • Em sensoriamento remoto o suporte da amostra é o tamanho da área real que é representado em um pixel. UERJ – © Oscar Luiz Monteiro de Farias 13 Variáveis Randômicas... • Considere todos os valores possíveis para a concentração de um dado contaminante nas diversas localizações de uma região. UERJ – © Oscar Luiz Monteiro de Farias 14 Variáveis Randômicas... • Se não existe informação sobre estes valores para a região em questão, pode-se somente especificar um domínio de valores possíveis. • Até que uma localização específica na região seja escolhida não temos um número único, mas uma população de valores. O conceito de variável randômica ajuda a lidar com a incerteza. • Ex. dado de 6 faces não viciado. UERJ – © Oscar Luiz Monteiro de Farias 15 Variáveis Randômicas... • Uma variável randômica é caracterizada por duas coisas: i) o conjunto de valores possíveis de serem assumidos pela variável; ii) o conjunto de probabilidades de ocorrência de cada um desses valores (distribuição de probabilidade). UERJ – © Oscar Luiz Monteiro de Farias 16 Variáveis Randômicas... • Uma variável randômica é discreta quando, ao se plotar os seus possíveis valores ao longo da reta real, sempre existe um espaço entre dois pontos consecutivos. • Uma variável randômica é contínua quando o conjunto de possíveis valores é um intervalo ou a união de vários intervalos. UERJ – © Oscar Luiz Monteiro de Farias 17 Variáveis Randômicas... • Em algumas aplicações os atributos são mensurados sem considerar a localização. Uma população alvo é identificada e amostras sistemáticas ou randômicas são coletadas. • Em outras aplicações é útil se considerar a localização. Por exemplo, se adicionalmente aos parâmetros (e.g. renda) relativos a uma população de famílias, um dos objetivos é estudar o padrão espacial da distribuição da renda. UERJ – © Oscar Luiz Monteiro de Farias 18 Distribuição de freqüência • Freqüência é o número de vezes que um valor especificado ocorre em uma amostra ou população finita. • Freqüência relativa é a freqüência dividida pelo tamanho da amostra (população). • A freqüência relativa é uma estimativa da probabilidade de ocorrência de um evento dado. UERJ – © Oscar Luiz Monteiro de Farias 19 Distribuição de freqüência • Considere um estacionamento com 100 carros (população). Destes, 30 são vermelhos, 40 brancos e 30 de outras cores. A probabilidade de que uma amostra contenha carros vermelhos será de 0.3; brancos, 0.4 e de outras cores, 0.3. • Em ciências ambientais conhece-se os valores de parâmetros para uma amostra, mas não para a população. • Pode-se, todavia, representar a população através de uma variável randômica que pode seguir aproximadamente um modelo de distribuição de probabilidade discreto conhecido. UERJ – © Oscar Luiz Monteiro de Farias 20 Distribuição de probabilidade... • Dada uma amostra, se computarmos as freqüências relativas para cada valor possível assumido pela variável randômica, teremos uma estimativa da distribuição de probabilidade da variável randômica. • Para variáveis randômicas discretas pode-se construir um gráfico de barras, com a abcissa mostrando os valores da variável[x] e a coordenada, as freqüências relativas[f(x)]. UERJ – © Oscar Luiz Monteiro de Farias 21 Distribuição de probabilidade... O conjunto de pares ordenados (x, f(x)) é uma função probabilidade ou distribuição de probabilidade da variável randômica discreta X, se para cada possível valor X=x, i ) f ( x)≥ 0 ii) ∑ f ( x)= 1 x iii ) P ( X=x )=f ( x ) Exemplos de distribuições discretas http://www.analyzemath.com/statistics/discrete_pro_distribution.html UERJ – © Oscar Luiz Monteiro de Farias 22 Distribuição Cumulativa • A distribuição cumulativa F(x) de uma variável randômica discreta X com distribuição de probabilidade f(x) é dada por: F ( x )=P ( X ≤ x )= ∑ f (t ) ,para− ∞ <x<∞ t≤ x UERJ – © Oscar Luiz Monteiro de Farias 23 Análise Combinatorial (i) Fonte: http://www.campusitabaiana.ufs.br/matematica/attachments/267_Matem%C3% A1tica%20Discreta%20Aula%203.pdf Arranjos, Permutações e Combinações Arranjo: Considere n objetos e p locais disponíveis para guardá-los, sendo exatamente 1 objeto em cada local = arranjo de n objetos tomados p a p = Apn. Permutação: Quando o número de objetos for igual ao número de locais disponíveis (n=p). Combinação: Quando a ordem de escolha dos objetos não for importante = Cpn. UERJ – © Oscar Luiz Monteiro de Farias 24 Análise Combinatorial (ii) 1 … 2 1 2 … … i j … p-1 n-1 n p Apn = n(n − 1)(n − 2). . .(n − (p − 1)) = [n(n − 1)(n − 2). . .(n − (p − 1)) (n-p)!]/(n-p)!=n!/(np)! UERJ – © Oscar Luiz Monteiro de Farias 25 Análise Combinatorial (iii) Exemplo 1: Considerando os dígitos 1,2,3,4,5, quantos números de 2 algarismos distintos podem ser formados? Apn = n!/(n-p)! = 5!/(5-2)!=5x4=2 Exemplo 2: Considere os algarismos 1,2,3,4,5. Quantos números distintos, superiores a 100 e inferiores a 1000, podemos formar se: (a) o número é par?; (b) o número é ímpar? (c) o número é par ou ímpar? Números entre 100 e 1000 possuem três dígitos, e portanto, temos 3 posições a serem preenchidas. Para que o número seja par, a última posição deve ser um algarismo par, caso contrário o número será ímpar. UERJ – © Oscar Luiz Monteiro de Farias 26 Análise Combinatorial (iv) (a) Se o número é par, a última posição L3 pode ser preenchida com 2 ou 4. Há, portanto, 2 maneiras de preencher a posição L3. Tomemos, por exemplo, o algarismo 2. Então para preenchermos as posições L1 e L2 temos os algarismos 1,3,4,5, isto é, um arranjo de 4 tomados 2 a 2. Logo, existem 2.A24 maneiras diferentes de preencher as 3 posições, isto é, 2. 4!/2! = 2.4.3 = 24 números pares maiores do que 100 e menores do que 1000 formados com os algarismos 1,2,3,4 e 5. UERJ – © Oscar Luiz Monteiro de Farias 27 Análise Combinatorial (v) (b) Já se o número é ímpar, a posição P3 pode ser preenchida com 1,3 ou 5. Então, existem 3 maneiras de preencher L3. Digamos que tomamos o algarismo 1. Então restam os algarismos 2,3,4,5 para preenhcer as posições L1 e L2, novamente um arranjo A24 = 12. Assim, existem 3.A24 maneiras diferentes de preencher as 3 posições, isto é, 36 números ímpares maiores do que 100 e menores do que 1000, formados com os algarismos 1,2,3,4 e 5. (c) Podemos somar a resposta do item (a) e (b) para obtermos 60 ou então pensarmos que a quantidade de números superiores a 100 e inferiores a 1000 que podem ser formados com os algarismos 1,2,3,4 e 5 é simplesmente o arranjo de 5 tomados 3 a 3, isto é, A35=5!/(5−3)!= 5.4.3 = 60. UERJ – © Oscar Luiz Monteiro de Farias 28 Análise Combinatorial (vi) Arranjos com Repetição: Caso sejam permitidas repetições de elementos, podemos na posição L1 escolher n elementos, na posição L2 também n elementos, e assim sucessivamente até a posição Lp. Logo, o número de arranjos com repetição de n elementos tomados p a p, denotado por ARpn = np. UERJ – © Oscar Luiz Monteiro de Farias 29 Análise Combinatorial (vii) Exemplo: Qual o total de placas de carro que podem ser construídas constando de 7 símbolos, sendo os 3 primeiros constituídos por letras e os 4 últimos por dígitos? Considerando-se o alfabeto com 26 letras, podemos escolher os 3 primeiros símbolos de AR326 maneiras diferentes e os 4 últimos de AR410. Logo, pelo princípio do produto, temos um total de AR326.AR410 = 263.104, isto é, podem ser construídas 175.760.000 placas. UERJ – © Oscar Luiz Monteiro de Farias 30 Análise Combinatorial (viii) Uma permutação simples de n objetos é qualquer agrupamento ordenado desses objetos. Assim, uma permutação de n objetos é um arranjo de n objetos tomados n a n. Denotando o número de permutações de n objetos por Pn, segue que Pn = Ann = n!/(n−n)!=n! Exemplo: Quantas são as maneiras de 6 carros serem estacionados em 6 vagas? É o arranjo de 6 carros tomados 6 a 6, ou seja, uma permutação de 6 carros. Assim, o número de maneiras é P6 = 6! = 720. UERJ – © Oscar Luiz Monteiro de Farias 31 Análise Combinatorial (ix) De quantas maneiras 12 moças e 12 rapazes podem formar pares para uma dança? A primeira moça tem 12 possibilidades para escolher um par. A segunda, 11, e assim sucessivamente de modo que a 12a terá apenas 1 escolha. Assim, pelo princípio multiplicativo, existem P12 = 12! = 479.001.600 maneiras desses pares serem formados. UERJ – © Oscar Luiz Monteiro de Farias 32 Análise Combinatorial (x) Combinações Simples: Se temos n elementos e desejamos escolher p deles, mas a ordem com o que fazemos tais escolhas não for importante, dizemos que queremos a combinação simples de n elementos tomados p a p. Usamos a notação Cpn para designar a combinação de n elementos tomados p a p. Claramente Apn = PpCpn, ou seja, Cpn=n!/(n-p)!p!=(pn) UERJ – © Oscar Luiz Monteiro de Farias 33 Análise Combinatorial (xi) Exemplo: Quantos subconjuntos de 3 elementos possui um conjunto A de 5 elementos? Como a ordem dos elementos no conjunto não importa, basta tomarmos a combinação C35 = 5!/(5-3)!3! = 10. Exemplo: Quantos triângulos diferentes podem ser traçados utilizando-se 14 pontos de um plano, não havendo 3 pontos alinhados? Como não há 3 pontos alinhados, basta escolhermos 3 pontos dentre os 14 para traçarmos um triângulo, não importando a ordem. Então, podemos traçar C314 = 14!/143)!. 3! =14.13.2 = 364 diferentes triângulos. UERJ – © Oscar Luiz Monteiro de Farias 34 Algumas distribuições discretas Uniforme - exemplo Bernouilli - exemplo Binomial - exemplo Geometric - exemplo Hypergeometric - exemplo Poisson - exemplo Negative Binomial - exemplo UERJ – © Oscar Luiz Monteiro de Farias 35 Exemplos de Binomial (i) Example: The probability that a student is accepted to a prestigious college is .3. If 5 students from the same school apply, what is the probability that at most 2 are accepted? Solution: To solve this problem, we compute 3 individual probabilities, using the binomial formula. The sum of all these probabilities is the answer we seek. Thus, b(x <= 2; 5, 0.3) = b(x = 0; 5, 0.3) + b(x = 1; 5, 0.3) + b(x = 2; 5, 0.3) b(x < =2; 5, 0.3) = 0.1681 + 0.3601 + 0.3087 b(x <= 2; 5, 0.3) = 0.8369 Fonte: http://stattrek.com/probability-distributions/binomial.aspx UERJ – © Oscar Luiz Monteiro de Farias 36 Exemplos de Binomial (ii) i is the observed number of successes n is the number of trials p is the probability of success for each trial q =1- p, is the probability of fail for each trail Suppose a treatment is successful 75% of the time (probability of success = .75). This treatment is used in 4 patients (n = 4). What is the probability of seeing 2 successes in these 4 patients? Let X represent the number of successful treatments. Thus, Pr(X = 2) = C24 (.75)2 (.25)4−2 = (6)(.5625)(.0625) = .2109. UERJ – © Oscar Luiz Monteiro de Farias 37 Exemplos de Binomial (ii) i is the observed number of successes n is the number of trials p is the probability of success for each trial q=1−p Suppose a treatment is successful 75% of the time (probability of success = .75). This treatment is used in 4 patients (n = 4). What is the probability of seeing 2 successes in these 4 patients? Let X represent the number of successful treatments. Thus, Pr(X = 2) = C24 (.75)2 (.25)4−2 = (6)(.5625)(.0625) = .2109. UERJ – © Oscar Luiz Monteiro de Farias 38 Distribuição de probabilidade... • Para variáveis randômicas contínuas grupa-se os membros da população dentro de classes ou intervalos de valores para o atributo em estudo. Para se obter a freqüência relativa, o número de vezes em que o valor do atributo cai dentro de um intervalo é dividido pelo tamanho da amostra. Cada freqüência relativa é dividida pelo tamanho do intervalo, fornecendo um valor f(y). O gráfico “valor do atributo x f(y)” fornece um histograma. UERJ – © Oscar Luiz Monteiro de Farias 39 Distribuição de probabilidade... • Histogramas podem ser construídos para amostras e populações de tamanho finito, mas não para populações de tamanho infinito. • Em particular, não é possível se construir histogramas para variáveis randômicas contínuas ou para variáveis randômicas discretas que podem assumir um número infinito de valores possíveis. UERJ – © Oscar Luiz Monteiro de Farias 40 UERJ – © Oscar Luiz Monteiro de Farias 41 A) Histograma da freqüência medida; B) distribuição cumulativa da freqüência – para os dados de argila da tabela anterior. A linha contínua é a curva teórica baseada em uma distribuição normal com a mesma média e variância estimada a partir dos dados. UERJ – © Oscar Luiz Monteiro de Farias 42 Função densidade de probabilidade (fdp)... • Pode ser pensada como a versão contínua de um histograma. • A função f(x) é uma fdp (probability density function pdf) para a variável randômica contínua X, definida sobre o conjunto dos números reais R, se i ) f ( x )≥ 0, ∀ x ∈ ℜ ∞ ii ) ∫ −∞ f ( x ) dx= 1 b iii ) P (a<x<b)= ∫ f ( x )dx a UERJ – © Oscar Luiz Monteiro de Farias 43 Função densidade de probabilidade... • A maioria das variáveis randômicas possuem duas características numéricas importantes: i) a média (); ii) a variância (2). = Square root (2) é o desvio padrão. • A média () é também chamada de valor esperado (expected value) - E(X) - da variável randômica X. Pode ser pensada como o ponto de equilíbrio do gráfico de uma fdp. • A variância indica o quanto os valores possíveis estão dispersos relativamente à média. UERJ – © Oscar Luiz Monteiro de Farias 44 Média ou Valor Esperado... • Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado de X é: μ=E( X )= ∑ xf ( x) se X é discreta, x ∞ μ=E( X )= ∫ xf ( x)dx se X é contínua. −∞ Média ponderada pela probabilidade f(x) dos possíveis valores de UERJ – © Oscar Luiz Monteiro de Farias 45 Variância A variância de X, denotada por Var(X) ou simplesmente Var X, ou 2 , é a média ponderada pela probabilidade f(x) dos quadrados dos valores dos desvios de X de E(X) = µ, i.e., Var X = E(X – µ)2 = Var(X)=2=E(X-E(X))2 UERJ – © Oscar Luiz Monteiro de Farias 46 Média ou Valor Esperado... Quando um dado é lançado, cada uma das faces 1, 2, 3, 4, 5, 6 ( xi's) tem a probabilidade 1/6 (p(xi)'s) de ocorrer. O valor esperado da face é: µ = E(X) = (1 x 1/6) + (2 x 1/6) + (3 x 1/6) + (4 x 1/6) + (5 x 1/6) + (6 x 1/6) = 3.5 Neste caso, E(X) é 3.5, que não é um valor possível para X. UERJ – © Oscar Luiz Monteiro de Farias 47 Média ou Valor Esperado... • Exemplo: Considere um lote contendo 7 componentes, dos quais 4 estão em bom estado e três apresentam defeitos. Uma amostra de três componentes é selecionada por um inspetor. Encontre o valor esperado do número de componentes em bom estado encontrados na amostra. • Solução: Seja X o número de componentes em bom estado na amostra. A distribuição de probabilidade de X é dada por ( )( )( ) 4 3 7 f (x)= . / ,x=0,1,2,3. x 3− x 3 UERJ – © Oscar Luiz Monteiro de Farias 48 Média ou Valor Esperado... daí, segue-se que: f(0)=1/35; f(1)=12/35; f(2)=18/35; f(3)=4/35; Portanto, µ=E(X)=(0).(1/35)+(1).(12/35)+(2).(18/35)+ (3).(4/35)=12/7=1.7 UERJ – © Oscar Luiz Monteiro de Farias 49 Média ou Valor Esperado... • Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado da variável randômica g(X) é: μ g ( X ) =E [ g( X )]= ∑ g( x ) f ( x) se X é discreta, e x ∞ μ g( X ) =E[ g( X )]= ∫ g( x ) f ( x)dx se X é contínua. −∞ UERJ – © Oscar Luiz Monteiro de Farias 50 Cumulative density function (cdf) 12 x F ( x)= ∫ f ( y)dy 10 −∞ 8 Column 1 Column 2 Column 3 6 4 2 0 UERJ – Row 1 Row 2 Row 3 © Oscar Luiz Monteiro de Farias Row 4 51 Cumulative density function (cdf) c P( x≤ c )=F ( c)= ∫ f ( y) dy −∞ P ( x 1 ≤ x≤ x 2 )=F ( x 2 )− F ( x 1 ) UERJ – © Oscar Luiz Monteiro de Farias 52 Cumulative density function (cdf) • A distribuição cumulativa ou função de densidade cumulativa F(x) de uma variável randômica contínua X com função de densidade de probabilidade f(x) é dada por: x F ( x)=P ( X ≤ x )= ∫ f (t )dt, para− ∞ <x<∞ −∞ P (a≤ ¿x≤ b)=F (b)− F ( a) UERJ – © Oscar Luiz Monteiro de Farias 53 Algumas distribuições contínuas Normal (curva de Gauss, Gaussiana ou bell curve) T de Student Chi squared UERJ – © Oscar Luiz Monteiro de Farias 54 Fdp – curva normal (curva de Gauss) Fonte: http://www.comfsm.fm/~dleeling/statistics/normal_curve.gif UERJ – © Oscar Luiz Monteiro de Farias 55 Características da curva normal Simétrica, em forma de sino Contínua, assim, qualquer intervalo [a, b] pertencente aos números Reais possui uma probabilidade diferente de zero. Dois parâmetros: µ e Tem-se, na realidade, uma família de distribuições, com a forma de cada distribuição determinada por µ e UERJ – © Oscar Luiz Monteiro de Farias 56 Fdp – curva normal (de Gauss) N(y,0,1) • Onde é a média da população e é o desvio padrão da população. • Variações na média deslocam a curva para a esquerda ou para a direita. • Variações no desvio padrão achatam ou espicham a curva. UERJ – © Oscar Luiz Monteiro de Farias 57 UERJ – © Oscar Luiz Monteiro de Farias 58 UERJ – © Oscar Luiz Monteiro de Farias 59 UERJ – © Oscar Luiz Monteiro de Farias 60 Utilidade da curva normal Muitas coisas são normalmente distribuídas, ou muito próximas a isto. Ex.: altura, peso e inteligência; erros de medidas. Há uma forte conexão entre o tamanho da amostra N e o grau pelo qual a distribuição da amostra se aproxima da forma normal. Para N grande (>=30) várias distribuições de amostras podem ser aproximadas por uma curva normal. UERJ – © Oscar Luiz Monteiro de Farias 61 Curva normal... • A distribuição de amostragem da média da amostra é aproximadamente normal, ainda que a distribuição da população da qual a amostra é coletada não seja normal. • A distribuição normal maximiza a entropia da informação entre todas as distribuições com média e variância conhecida, o que a torna a escolha natural para a distribuição de dados sumarizados em termos da média e variância da amostra. • Na teoria da probabilidade a distribuição normal aparece como a distribuição limite de várias famílias de distribuição (discretas e contínuas). UERJ – © Oscar Luiz Monteiro de Farias 62 Uso da tabela normal UERJ – © Oscar Luiz Monteiro de Farias 63 Distribuição Normal... x P ( x 1 <=X<=x 2 )= ∫ 2 x1 x 2 1 − ( 1/ 2 )[ ( x− μ )/ σ ] n( x,μ,σ ) dx= e dx ∫ σ√ 2π x 2 1 • Fazendo a seguinte transformação de coordenadas: X − μ , teremos: Z= σ x 2 1 − ( 1/2 )[( x− μ )/σ ] P ( x 1 <=X<=x 2 )= e dx ∫ σ√ 2π x 2 1 UERJ – © Oscar Luiz Monteiro de Farias 64 Distribuição Normal z 2 1 − ( 1/2 ) z P ( z 1 <=Z<=z 2 )= e dz ∫ 2π z √ 2 1 z 2 P ( z 1 <=Z<=z 2 )= ∫ n( z;0,1 ) dz z1 UERJ – © Oscar Luiz Monteiro de Farias 65 Exemplo 1 • Dada uma distribuição normal com µ=50 e =10, encontre a probabilidade de que X assuma valores entre 45 e 62. • Solução: Z=(X-µ)/ . Assim, os valores z correspondentes a 45 e 62 são: z1=(45-50)/10=-0.5 e z2=(62-50)/10=1.2 P(45<=X<=62) = P(-0.5<=z<=1.2) = P(z<=1.2)- P(z<=-0.5) = 0.8849-0.3085=0.5764. UERJ – © Oscar Luiz Monteiro de Farias 66 Exemplo 2 • Dada uma distribuição normal com µ=40 e =6, encontre o valor de x tal que: a) 45% da área esteja à esquerda; b) 14% da área esteja à direita. • Solução: P(z<=z*)=0.45. Da tabela normal seguese que z*=-0.13. Daí X = *z +µ = 6 *(-0.13)+40 X=39.22 P(z>z´)=0.14 e P(z<z´)=0.86 e z´=1.08 X = *z +µ = 6 *(1.08)+40 = 46.48 UERJ – © Oscar Luiz Monteiro de Farias 67 Exemplo 3 • Um certo tipo de bateria dura em média 3.0 anos, com um desvio padrão de 0.5 anos. Assumindo que o tempo de vida das baterias tenha uma distribuição normal, encontre a probabilidade de que uma dada bateria dure menos que 2.3 anos. • Solução: Devemos encontrar P(X<2.3); Isto se consegue através da transformada Z=(X-µ)/ Z=(2.3-3)/0.5=-1.4 P(X<2.3)=P(Z<-1.4)=0.0808. UERJ – © Oscar Luiz Monteiro de Farias 68 UERJ – © Oscar Luiz Monteiro de Farias 69 UERJ – © Oscar Luiz Monteiro de Farias 70 Distribuição log-normal... • Em alguns casos os histogramas exibem forte assimetria. Tal fato é comum no estudo de concentrações químicas e em outros atributos. • Contudo a distribuição pode tornar-se próxima da normal quando se aplica a transformação Ln (natural log) à variável randômica não-normal X, i.e., Y = Ln X. • Diz-se que a variável X tem uma distribuição log-normal. UERJ – © Oscar Luiz Monteiro de Farias 71 Distribuição log-normal... μ=exp( μ y +0. 5σ y ) 2 σ 2 = exp(2μ y +σ y )[ exp( σ y )− 1] 2 2 A exponencial da média aritmética do dado log transformado Ln z é a média geométrica: G= √∏ n n i=1 UERJ – n 1 x i = exp [ ∑ ln x i ] n i=1 © Oscar Luiz Monteiro de Farias 72 Exemplo A tabela a seguir fornece 60 valores de concentração de chumbo no solo (z). Os valores são plotados na fig.A e estendem-se por um amplo domínio. Um histograma (fig.B), construído usando-se intervalos de classe de 20 (mg/Kg) mostra uma preponderância de pequenos valores nas classes 0-20, 20-40 e 40-60. Contudo existem valores maior que 100 e pelo menos dois deles superiores a 250. Fazendo-se y = ln z (fig. C) os valores mostram-se mais uniformemente distribuídos, como se nota pelo histograma da transformada (fig. D). Isto não significa necessariamente que a distribuição é log-normal. Mas testes seriam necessários para comprovar isto. UERJ – © Oscar Luiz Monteiro de Farias 73 UERJ – © Oscar Luiz Monteiro de Farias 74 UERJ – © Oscar Luiz Monteiro de Farias 75 UERJ – © Oscar Luiz Monteiro de Farias 76 UERJ – © Oscar Luiz Monteiro de Farias 77 UERJ – © Oscar Luiz Monteiro de Farias 78 Variância x suporte da amostra • Quanto menor o suporte da amostra observa-se que a variância assume valores maiores. UERJ – © Oscar Luiz Monteiro de Farias 79 Curva normal... • A importância da distribuição normal como um modelo de fenômenos quantitativos nas ciências naturais e comportamentais deve-se ao teorema do limite central: • Se X é a média de uma amostra randômica de tamanho n coletada de uma população com média e variância finita 2, então a forma limite da distribuição de X− μ quando n Z= σ/ √n é uma distribuição normal padrão n(z,0,1). UERJ – © Oscar Luiz Monteiro de Farias 80 Tamanhos de amostra e intervalos de confidência • Uma variável randômica normal é completamente caracterizada quando são conhecidas as suas média (µ ) e variância (). • Uma questão comum em MA e amostragem é: qual o tamanho da amostra para se estimar adequadamente estes dois parâmetros? • O tamanho da amostra ou número de localizações (n) necessários para estimar a média depende da tolerância ou erro d que estejamos dispostos a admitir na estimativa e também no grau de confidência de que o erro seja realmente menor do que d. UERJ – © Oscar Luiz Monteiro de Farias 81 Distribuição de amostragem • A distribuição de probabilidade de uma estatística é denominada uma distribuição de amostragem (sampling distribution). • A distribuição de probabilidade de X é chamada distribuição de amostragem da média. • A distribuição de amostragem de X com tamanho de amostra n é a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de X resultam . • Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ. UERJ – © Oscar Luiz Monteiro de Farias 82 A Propriedade reprodutiva • Teorema: Se X1, X2, ......, Xn são variáveis randômicas independentes tendo distribuição normal com médias μ1, μ2, ......, μn e variâncias σ1, σ2, ...... σn , respectivamente, então a variável randômica Y=a1 X 1 +a 2 X 2 +...+a n X n tem uma distribuição normal com média μY =a1 μ1+a 2 μ2+.....+a n μn e variância 2 2 2 2 2 2 σ Y =a 1 σ 1 +a 2 σ 2 +.. .. . +an σ n 2 UERJ – © Oscar Luiz Monteiro de Farias 83 Distribuição de amostragem das médias • Supor que uma amostra randômica com n observações é selecionada de uma população normal com média μ e variância σ2. Cada observação Xi, i=1,2,...,n, da amostra randômica terá a mesma distribuição normal da população que está sendo amostrada. Pelo teorema anterior... X 1 +X 2 +. .. +X n μ+μ+. . .+μ X= , mas μ X = =μ n n 2 2 2 2 σ +σ +.. . +σ σ σ 2X = = n n UERJ – © Oscar Luiz Monteiro de Farias 84 i) Variância da pop. é conhecida • Deseja-se estimar a média (µ) de uma variável randômica normal assumindo-se que o desvio padrão () é conhecido. • Pode-se mostrar que a média da amostra é também normalmente distribuída ( X =µ) e a 2 variância da amostra σ σx = n 2 UERJ – © Oscar Luiz Monteiro de Farias 85 Distribuição de amostragem • A distribuição de probabilidade de uma estatística é denominada uma distribuição de amostragem (sampling distribution). • A distribuição de probabilidade de X é chamada distribuição de amostragem da média. • A distribuição de amostragem de X com tamanho de amostra n é a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de X resultam . • Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ. UERJ – © Oscar Luiz Monteiro de Farias 86 Usando o teorema do limite central, onde X− μ Z= σ/ √n X− μ teremos: P (− z α ≤ ≤ z α )= 1− α σ /√ n 2 UERJ – 2 © Oscar Luiz Monteiro de Farias 87 P ( μ− z α σ / √ n≤ X ≤ μ+z α σ / √ n )= 1− α (I) 2 Onde 2 P ( z≤ z α /2 )= 1− α/2 Mas, pode-se reescrever (I) como: P ( X − zα σ / √ n≤ μ≤ X +z α σ / √ n)= 1− α 2 2 (II) O que representa um intervalo de confiança (1-)*100% para . UERJ – © Oscar Luiz Monteiro de Farias 88 Exemplo 3.3 • Suponha que uma amostra randômica de tamanho 16 foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja igual a 22.4. Assuma que o desvio padrão da população - - é 3.2. Deseja-se obter intervalos de confidência de 95% e de 99% para a média (desconhecida) µ. • Solução: Neste caso pode-se usar a eq. (II), pois o desvio padrão é conhecido. 1-=0.95. Logo =0.05 e /2=0.025. A partir de uma tabela normal encontra-se z0.025=1.96. UERJ – © Oscar Luiz Monteiro de Farias 89 Exemplo 3.3 Assim o intervalo de confidência de 95% corresponde a: 22.4 – (1.96*3.2)/4<µ< 22.4 + (1.96*3.2)/4 ou 22.4 -1.568 <µ< 22.4 + 1.568 • Para o intervalo de confidência de 99%: 1-=0.99, logo =0.01 e /2=0.005. A partir de uma tabela normal tem-se: 22.4 – (2.576*3.2)/4<µ< 22.4 + (2.576*3.2)/4 UERJ – © Oscar Luiz Monteiro de Farias 90 Agora seja o erro tolerável d= z α /2 σ 2 ] Ou ainda, n= [ d z α /2 σ √n Assim, para um dado nível de confiança e uma dada tolerância d, pode-se prever o tamanho da amostra. Note que os cálculos para computar o intervalo de confiança e o tamanho da amostra dependem de duas premissas importantes: i) a variável randômica seja normal; ii) o desvio padrão seja conhecido. UERJ – © Oscar Luiz Monteiro de Farias 91 Exemplo 3.4 • Suponha que se deseje obter intervalos de confidência de 95% e 99% para a média de uma população uniformemente distribuída, em que o desvio padrão da população é 3.2. Desejando-se o máxima tolerância d=0.75, qual deverá ser o tamanho da amostra? 2 z α /2 σ 2 1 . 96∗ 3. 2 n≥ = 69 . 93 Logo n=70 n≥ [ ] 0 . 75 d [ [ ] ] 2 2 .57∗ 3 . 2 n≥ = 120. 23 0 . 75 UERJ – © Oscar Luiz Monteiro de Farias Logo n=121 92 Algumas conclusões • I) Se o tamanho da amostra é fixo (e o desvio padrão da população - - é conhecido), então quanto maior o nível de confidência, maior será o intervalo de confidência. • II) Dada a informação (média da amostra, tamanho da amostra e desvio padrão da população), existe um intervalo de confidência para cada escolha do nível de confidência. • III) Um maior nível de confidência corresponde a uma amostra de tamanho maior, permanecendo constantes as demais condições. UERJ – © Oscar Luiz Monteiro de Farias 93 Uso da distribuição t de Student • Na equação (II) nem sempre a média e o desvio padrão são conhecidos. • Após a coleta de dados, então um intervalo similar ao da equação (II) pode ser calculado: P( X − st α 2,n − 1 n √ ≤ μ≤ X + st α 2,n − 1 n √ )= 1− α (III) Onde t/2,n-1 é obtido a partir de uma t-table ou função spreadsheet. t/2,n-1 se aproxima de z/2, à medida que n cresce. [t/2,n-1 > z/2]. UERJ – © Oscar Luiz Monteiro de Farias 94 Porque usar a t de Student Se X1, X2, …, Xi, …, Xn, é uma amostra randômica de N(µ, σ), X 1 +X 2 +. .. +X n X= , n S2=(Xi-X)2/(n-1), Então a distribuição de t = (X – µ)/S/√n é chamada de distribuição t de Student com n-1 graus de liberdade . UERJ – © Oscar Luiz Monteiro de Farias 95 Exemplo 3.5 • Suponha que uma amostra randômica de tamanho 16 foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja 22.4 e o desvio padrão da amostra 3.2. Deseja-se obter intervalos de confidência de 95% e 99% para a média da população. • Solução: Neste caso usa-se a t-table ao invés da tabela normal, pois o desvio padrão da população não é conhecido. 1-=0.95, logo =0.05 e /2=0.025. t0.025,15= 2.131 UERJ – © Oscar Luiz Monteiro de Farias 96 Exemplo 3.5 22.4 – (2.131*3.2)/4<µ< 22.4 + (2.131*3.2)/4 Para 1-=0.99, logo =0.01 e /2=0.005 t0.005,15= 2.947, resultando em: 22.4 – (2.947*3.2)/4<µ< 22.4 + (2.947*3.2)/4 • Nota-se que o intervalo de confidência 99% é maior que o intervalo de confidência 95%, mas cada um destes dois é maior do que as suas contrapartes, quando o desvio padrão da população é conhecido. • Quando o tamanho da amostra é maior ou igual a 30, os valores da t-table aproximam-se dos valores na tabela normal. UERJ – © Oscar Luiz Monteiro de Farias 97 Exemplo 3.6 • Em aplicações reais, o desvio padrão da população pode não ser conhecido e, mesmo assim, deseja-se prever o tamanho da amostra para um dado nível de confidência para a média da população, i.e., deseja-se fixar o nível de confidência e a tolerância. • O problema deve ser resolvido em vários passos. define-se um tamanho de amostra baseado em outras considerações, tais como custo da amostragem, facilidade da amostragem, etc.) Seleciona-se a amostra e computa-se o seu desvio padrão - s -. UERJ – © Oscar Luiz Monteiro de Farias 98 Exemplo 3.6 Usa-se s como se fosse o desvio padrão da população e computa-se o tamanho da amostra. Se o valor projetado para o novo tamanho da amostra é maior que o tamanho da amostra anterior, deve-se coletar uma nova amostra (cuidado! em geral não se pode adicionar novas observações à amostra anterior; tal procedimento não resultaria em uma amostra randômica). Continua-se o processo descrito em até que o novo tamanho projetado da amostra seja próximo ao tamanho da amostra anterior. UERJ – © Oscar Luiz Monteiro de Farias 99 Exemplo 3.6 Usa-se, então, a média da última amostra coletada e o desvio padrão desta última amostra, juntamente com valor (n-1) da t-table, para gerar-se o desejado intervalo de confidência. Não há garantia alguma de que este processo páre rapidamente. Conclusão: estimar o desvio padrão é mais complexo que estimar-se a média µ. UERJ – © Oscar Luiz Monteiro de Farias 100 Exemplo 3.7 • A partir dos dados da tabela 3.1 (percentuais de argila), encontramos a média da amostra = 35.3 e o desvio padrão da amostra = 6.38. O tamanho da amostra é n=36. Os níveis de confidência são especificados em 95% e 99%. Para 1-=0.95, logo =0.05 e /2=0.025. t0.025, 35=2.030 e assim o intervalo de confidência é: 35.3 – (2.030*6.38)/6<µ< 35.3 + (2.030* 6.38)/6 35.3-2.158 ≤µ≤35.3+2.158 Para 1-=0.99, logo =0.01 e /2=0.005 t0.005,35= 2.738, resultando em: 35.3 – (2.738*6.38)/6<µ< 35.3 + (2.738* 6.38)/6 35.3 – 2.911 ≤ µ ≤ 35.3 + 2.911 UERJ – © Oscar Luiz Monteiro de Farias 101 Exemplo 3.7+ • Pode-se pensar que estes intervalos de confidência são muito largos (elevada tolerância) e deseja-se obter mais amostras. Qual deveria ser o tamanho da amostra para se obter uma tolerância de 0.8, com um nível de confidência de 95%? • Para 1-=0.95, logo =0.05 e /2=0.025, t0.025, 35=2.030 2 z α /2 σ 2 2 .030∗ 6 . 38 n>=[ ] n≥ = 262 . 09 Usar n=263 0.8 d 2 2 .738∗ 6 . 38 n≥ ≈ 477 nível de confidência = 99% 0 .8 [ UERJ – [ ] ] © Oscar Luiz Monteiro de Farias 102 Exemplo 3.7++ Para completar a análise deveria se selecionar uma amostra randômica do tamanho especificado (263 p/ pcomputar a média e o desvio padrão da amostra, e então computar a tolerância, para comparar com a escolha de d=0.8. UERJ – © Oscar Luiz Monteiro de Farias 103 Observações • Assumiu-se que a população possuía uma distribuição normal. • Foi essencial para os resultados a hipótese de que as amostras são randômicas. • Existem meios de se testar se uma distribuição é normal. UERJ – © Oscar Luiz Monteiro de Farias 104 How to Test for Normality 1. First, use a large enough random sample size for the normality test. To accurately verify whether or not a distribution is normal, you should have at least 50 data points. 2. Next, compute the average (mean), median, range, and standard deviation of the sample. Call these numbers A, M, R, and D. 3. Check if the average and the median are relatively close, considering the range of the sample. Closeness is relative, but a good standard to use is that difference between the average and median is at most 1% of the range. One of the hallmarks of normal distributions is that they are symmetric, that is, the mean and the median are equal. If your random sample comes from a population that is normally distributed, then the average and the median should be close. 4. Next, use the standard deviation to check the 68-95-99.7 rule. In a normal distribution, 68% of the data points lie within 1 standard deviation of the mean, 95% lie within 2 s.d., and 99.7% lie within 3 s.d. 5. If the results of Steps 3 and 4 are positive, then there is a good chance that the distribution is normal. 6. Statisticians and data analysts use more powerful mathematical tests for normality, such as the Kolmogorov-Smirnov, Anderson-Darling, and Shapiro-Wilk tests, named after their inventors. Read more: How to Test for Normality (Bell Curve Distribution) | eHow.com http://www.ehow.com/how_5284154_test-normality-bell-curve-distribution.html#ixzz1usrbYP4J UERJ – © Oscar Luiz Monteiro de Farias 105 Covariância... • Covariância é a medida do quanto duas variáveis randômicas mudam conjuntamente. • Se duas variáveis randômicas X e Y tendem a variar juntas (i.e., quando uma delas está acima do valor esperado, então a outra tende a estar também acima do seu valor esperado) então a covariância entre as duas variáveis será positiva. • Por outro lado, se uma delas tende a estar acima do seu valor esperado e, outra, abaixo do seu valor esperado, a covariância entre as duas variáveis será negativa. UERJ – © Oscar Luiz Monteiro de Farias 106 Covariância... • Definição: A covariância entre duas variáveis randômicas X e Y, assumindo valores reais, com valores esperados E(X)=µ e E(Y)= é definida por: COV(X,Y)=E((X-µ)(Y- )), onde E é o operador valor esperado. COV(X,Y)=E(X.Y-X.-µ.Y+µ.) COV(X,Y)=E(X.Y)-E(X). -µ.E(Y) +µ. COV(X,Y)= E(X.Y)-µ. = E(X.Y)- E(X). E(Y) UERJ – © Oscar Luiz Monteiro de Farias 107 Coeficiente de correlação de Person Cov( X,Y ) ρ= ,− 1≤ ρ≤ 1 σx.σy Se ||=1, então X e Y são linearmente dependentes. • A covariância pode ser estimada pela covariância da amostra: n 1 s xy = ( x i − ̄ x )( y i − ̄ y ) ∑ n− 1 i=1 • O coeficiente de correlação da amostra é uma forma s xy normalizada da covariância da amostra: r= UERJ – © Oscar Luiz Monteiro de Farias sx s y 108 Coeficiente de correlação • O coeficiente de correlação indica a intensidade e a direção de uma relação linear entre duas variáveis randômicas. UERJ – © Oscar Luiz Monteiro de Farias 109 Distribuição normal multivariada • A distribuição normal é completamente determinada pela sua média µ e pela sua variância . • Uma distribuição normal multivariada é completamente determinada pelo vetor das médias ⃗μ e pela matriz de variâncias e covariâncias. Ex. para 3 variáveis randômicas: s 21 s 12 s 13 S= s 21 s 22 s 23 s 31 s 32 s 23 ( UERJ – ) © Oscar Luiz Monteiro de Farias 110 Regressão Linear UERJ – © Oscar Luiz Monteiro de Farias 111