Monitoramento e Controle Ambiental Programa de Pós-Graduação em Meio Ambiente (PPG-MA) - UERJ UERJ – © Oscar Luiz Monteiro de Farias 1 Estatística e Geoestatística no Monitoramento Ambiental UERJ – © Oscar Luiz Monteiro de Farias 2 Métodos Estatísticos... • Métodos Estatísticos são necessários em MA porque em geral não é possível caracterizar-se uma situação pela observação direta. • Amostragem – método para obtenção de informações sobre parâmetros de interesse em localizações ou instantes de tempo específicos. • Alternativa à obtenção de informações sobre os parâmetros em todo o universo. • O uso de métodos estatísticos permite, a partir de informações parciais, inferir informações sobre o todo. UERJ – © Oscar Luiz Monteiro de Farias 3 Métodos Estatísticos... • Conjunto de dados univariável (univariate data set) • Conjunto de dados multivariável (multivariate data set) Ex.: quando se deseja analisar a concentração de vários contaminantes diferentes em uma dada área. • O conjunto de dados denomina-se amostra. Ele pode ser visto como um subconjunto dos valores possíveis que poderiam ser gerados caso coletássemos informações em todo o universo (área total, no caso). • Referimo-nos ao conjunto de todos os valores possíveis como população. UERJ – © Oscar Luiz Monteiro de Farias 4 Métodos Estatísticos... • Estatística Descritiva ou Exploratória – é usada para descrever as características básicas dos dados em estudo. • consiste em computar uma ou mais estatísticas resumo para uma amostra. • A estatística resumo é um número único que caracteriza um conjunto de dados de algum modo. • Freqüentemente inclui um ou mais gráficos. UERJ – © Oscar Luiz Monteiro de Farias 5 Métodos Estatísticos... • Estatística Inferencial – neste casos usa-se o conjunto de dados (sample data set) para se inferir algo sobre a população. • É uma boa prática se considerar a estatística descritiva ou exploratória, antes de se considerar a estatística inferencial. • Métodos estatísticos espaciais – incluem informações relacionadas à localização física da amostra. • Em problemas ambientais pode ser necessário o uso de métodos estatísticos espaço-temporais, em que, além das coordenadas espaciais é essencial o registro das coordenadas temporais. UERJ – © Oscar Luiz Monteiro de Farias 6 Métodos Estatísticos... • Em avaliação e MA o objetivo não se limita em caracterizar um local, mas em usar a informação para a tomada de decisões. • Tomar decisões sempre incorpora algum grau de risco (p. ex. o risco de se tomar a decisão errada). UERJ – © Oscar Luiz Monteiro de Farias 7 Amostras e população... • Uma amostra é um conjunto de observações individuais obtidas no processo de amostragem. • Cada observação pode representar múltiplos aspectos de informação, como, p.ex., a concentração de um ou mais contaminantes. • Este conjunto de números é chamado de dados (data). • Antes da coleta dos dados é necessário considerar a sua quantidade e o local de onde serão extraídos, bem como o método de monitoramento utilizado. UERJ – © Oscar Luiz Monteiro de Farias 8 Amostras e população... • Facilidade de acesso, tecnologia disponível, custos associados à coleta física das amostras e à posterior análise de laboratório podem limitar ou restringir a quantidade e a qualidade da informação obtida no processo de amostragem. • Isto pode afetar a confiabilidade das conclusões fundamentadas na análise estatística dos dados. • É sempre importante saber-se de antemão como os dados serão utilizados (quais as questões que serão respondidas e quão confiáveis as respostas deverão ser), antes da coleta de qualquer dado. UERJ – © Oscar Luiz Monteiro de Farias 9 Amostras e população... • A validade das conclusões fundamentadas no uso de métodos estatísticos depende da criteriosa observação de algumas premissas. P.ex. Amostra Randômica (Random Sampling) – significa que a seleção de uma amostra é conduzida de tal forma que qualquer subconjunto (com tamanho fixo de amostra = n) da população tem igual probabilidade de ser selecionado. UERJ – © Oscar Luiz Monteiro de Farias 10 Suporte da Amostra... • Os valores dos dados freqüentemente representam propriedades associadas a um dado volume de matéria ou a uma determinada área. Este volume ou área é denominado suporte da amostra. • P.ex. a porosidade de um solo é determinada pela relação poros/volume. Poros grandes e fraturas de solo em rochas não podem ser detectados em núcleos de solo com suporte de pequeno volume. UERJ – © Oscar Luiz Monteiro de Farias 11 Suporte da Amostra... • A condutividade hidráulica e concentrações químicas são valores médios em um dado volume. Este volume monitorado é o suporte da amostra. • Em sensoriamento remoto o suporte da amostra é o tamanho da área real que é representado em um pixel. UERJ – © Oscar Luiz Monteiro de Farias 12 Variáveis Randômicas... • Considere todos os valores possíveis para a concentração de um dado contaminante nas diversas localizações de uma região. UERJ – © Oscar Luiz Monteiro de Farias 13 Variáveis Randômicas... • Se não existe informação sobre estes valores para a região em questão, pode-se somente especificar um domínio de valores possíveis. • Até que uma localização específica na região seja escolhida não temos um número único, mas uma população de valores. O conceito de variável randômica ajuda a lidar com a incerteza. • Ex. dado de 6 faces não viciado. UERJ – © Oscar Luiz Monteiro de Farias 14 Variáveis Randômicas... • Uma variável randômica é caracterizada por duas coisas: i) o conjunto de valores possíveis de serem assumidos pela variável; ii) o conjunto de probabilidades de ocorrência de cada um desses valores (distribuição de probabilidade). UERJ – © Oscar Luiz Monteiro de Farias 15 Variáveis Randômicas... • Uma variável randômica é discreta quando, ao se plotar os seus possíveis valores ao longo da reta real, sempre existe um espaço entre dois pontos consecutivos. • Uma variável randômica é contínua quando o conjunto de possíveis valores é um intervalo ou a união de vários intervalos. UERJ – © Oscar Luiz Monteiro de Farias 16 Variáveis Randômicas... • Em algumas aplicações os atributos são mensurados sem considerar a localização. Uma população alvo é identificada e amostras sistemáticas ou randômicas são coletadas. • Em outras aplicações é útil se considerar a localização. Por exemplo, se adicionalmente aos parâmetros (e.g. renda) relativos a uma população de famílias, um dos objetivos é estudar o padrão espacial da distribuição da renda. UERJ – © Oscar Luiz Monteiro de Farias 17 Distribuição de freqüência • Freqüência é o número de vezes que um valor especificado ocorre em uma amostra de população finita. • Freqüência relativa é a freqüência dividida pelo tamanho da amostra. • A freqüência relativa é uma estimativa da probabilidade de ocorrência de um evento dado. UERJ – © Oscar Luiz Monteiro de Farias 18 Distribuição de freqüência • Considere um estacionamento com 100 carros (população). Destes, 30 são vermelhos, 40 brancos e 30 de outras cores. A probabilidade de que uma amostra contenha carros vermelhos será de 0.3; brancos, 0.4 e de outras cores, 0.3. • Em ciências ambientais conhece-se os valores de parâmetros para uma amostra, mas não para a população. • Pode-se, todavia, representar a população através de uma variável randômica que pode seguir aproximadamente um modelo de distribuição de probabilidade discreto conhecido. UERJ – © Oscar Luiz Monteiro de Farias 19 Distribuição de probabilidade... • Dada uma amostra, se computarmos as freqüências relativas para cada valor possível assumido pela variável randômica, teremos uma estimativa da distribuição de probabilidade da variável randômica. • Para variáveis randômicas discretas pode-se construir um gráfico de barras, com a abcissa mostrando os valores da variável e a coordenada, as freqüências relativas. UERJ – © Oscar Luiz Monteiro de Farias 20 Distribuição de probabilidade... • O conjunto de pares ordenados (x, f(x)) é uma função probabilidade ou distribuição de probabilidade da variável randômica discreta X, se para cada possível valor X=x, i) f (x) 0 ii)f(x)1 x iii )P (X x )f(x ) UERJ – © Oscar Luiz Monteiro de Farias 21 Distribuição Cumulativa • A distribuição cumulativa F(x) de uma variável randômica discreta X com distribuição de probabilidade f(x) é dada por: F ( x ) P ( X x ) f ( t ), para x t x UERJ – © Oscar Luiz Monteiro de Farias 22 Distribuição de probabilidade... • Para variáveis randômicas contínuas grupa-se os membros da população dentro de classes ou intervalos de valores para o atributo em estudo. Para se obter a freqüência relativa, o número de vezes em que o valor do atributo cai dentro de um intervalo é dividido pelo tamanho da amostra. Cada freqüência relativa é dividida pelo tamanho do intervalo, fornecendo um valor f(y). O gráfico “valor do atributo x f(y)” fornece um histograma. UERJ – © Oscar Luiz Monteiro de Farias 23 Distribuição de probabilidade... • Histogramas podem ser construídos para amostras e populações de tamanho finito, mas não para populações de tamanho infinito. • Em particular, não é possível se construir histogramas para variáveis randômicas contínuas ou para variáveis randômicas discretas que podem assumir um número infinito de valores possíveis. UERJ – © Oscar Luiz Monteiro de Farias 24 UERJ – © Oscar Luiz Monteiro de Farias 25 A) Histograma da freqüência medida; B) distribuição cumulativa da freqüência – para os dados de argila da tabela anterior. A linha contínua é a curva teórica baseada em uma distribuição normal com a mesma média e variância estimada a partir dos dados. UERJ – © Oscar Luiz Monteiro de Farias 26 Função densidade de probabilidade (fdp)... • Pode ser pensada como a versão contínua de um histograma. • A função f(x) é uma fdp (probability density function pdf) para a variável randômica contínua X, definida sobre o conjunto dos números reais R, se i)f (x)0 , x ii ) f (x)dx 1 b iii ) P ( a x b ) ) dx f(x a UERJ – © Oscar Luiz Monteiro de Farias 27 Função densidade de probabilidade... • A maioria das variáveis randômicas possuem duas características numéricas importantes: i) a média (); ii) a variância (2). é o desvio padrão. • A média () é também chamada de valor esperado (expected value) - E(X) - da variável randômica X. Pode ser pensada como o ponto de equilíbrio do gráfico de uma fdp. • A variância indica o quanto os valores possíveis estão dispersos relativamente à média. UERJ – © Oscar Luiz Monteiro de Farias 28 Média ou Valor Esperado... • Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado de X é: E (X ) xf (x ) se X é discreta, e x E ( X ) ( x ) dx se X é contínua. xf UERJ – © Oscar Luiz Monteiro de Farias 29 Média ou Valor Esperado... • Exemplo: Considere um lote contendo 7 componentes, dos quais 4 estão em bom estado e três apresentam defeitos. Uma amostra de três componentes é selecionada por um inspetor. Encontre o valor esperado do número de componentes em bom estado encontrados na amostra. • Solução: Seja X o número de componentes em bom estado na amostra. A distribuição de probabilidade de X é dada por 4 3 x 3 x f(x ) ,x 0 ,1 ,2 ,3 . 7 3 UERJ – © Oscar Luiz Monteiro de Farias 30 Média ou Valor Esperado... daí, segue-se que: f(0)=1/35; f(1)=12/35; f(2)=18/35; f(3)=4/35; Portanto, µ=E(X)=(0).(1/35)+(1).(12/35)+(2).(18/35)+ (3).(4/35)=12/7=1.7 UERJ – © Oscar Luiz Monteiro de Farias 31 Média ou Valor Esperado... • Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado da variável randômica g(X) é: E [ g ( X )] g ( x ) f ( x )se X é discreta, e g ( X ) x E [ g ( X )] g ( x ) f ( x ) dx se X é contínua. g ( X ) UERJ – © Oscar Luiz Monteiro de Farias 32 Fdp – curva normal (de Gauss) N(y,0,1) • Onde é a média da população e é o desvio padrão da população. • Variações na média deslocam a curva para a esquerda ou para a direita. • Variações no desvio padrão achatam ou espicham a curva. UERJ – © Oscar Luiz Monteiro de Farias 33 Fdp – curva normal (curva de Gauss) Fonte: http://www.comfsm.fm/~dleeling/statistics/normal_curve.gif UERJ – © Oscar Luiz Monteiro de Farias 34 UERJ – © Oscar Luiz Monteiro de Farias 35 UERJ – © Oscar Luiz Monteiro de Farias 36 UERJ – © Oscar Luiz Monteiro de Farias 37 Cumulative density function (cdf) x F (x)f(y)dy UERJ – © Oscar Luiz Monteiro de Farias 38 Cumulative density function (cdf) c P ( x c ) F ( c ) ) dy f(y P ( x x x ) F ( x ) F ( x ) 1 2 2 1 UERJ – © Oscar Luiz Monteiro de Farias 39 Cumulative density function (cdf) • A distribuição cumulativa ou função de densidade cumulativa F(x) de uma variável randômica contínua X com função de densidade de probabilidade f(x) é dada por: x F ( x ) P ( X x ) f ( t ) dt , par x P ( a x b ) F ( b ) F ( a ) UERJ – © Oscar Luiz Monteiro de Farias 40 Curva normal... • A distribuição de amostragem da média da amostra é aproximadamente normal, ainda que a distribuição da população da qual a amostra é coletada não seja normal. • A distribuição normal maximiza a entropia da informação entre todas as distribuições com média e variância conhecida, o que a torna a escolha natural para a distribuição de dados sumarizados em termos da média e variância da amostra. • Na teoria da probabilidade a distribuição normal aparece como a distribuição limite de várias famílias de distribuição (discretas e contínuas). UERJ – © Oscar Luiz Monteiro de Farias 41 Distribuição Normal... 1 P ( x X x ) n ( x , , ) dx e d 1 2 2 x x 1 1 x 2 x 2 2 ( 1 / 2 )[( x ) / ] • Fazendo a seguinte transformação de coordenadas: X , teremos: Z 1 P ( x X x ) e dx 1 2 2 x 1 x 2 2 ( 1 / 2 )[( x ) /] UERJ – © Oscar Luiz Monteiro de Farias 42 Distribuição Normal z 2 2 ( 1 / 2 ) z 1 P ( z Z z ) e dz 1 2 2 z 1 z 2 P ( z Z z ) n ( z ; 0 , 1 ) dz 1 2 z 1 UERJ – © Oscar Luiz Monteiro de Farias 43 Exemplo 1 • Dada uma distribuição normal com µ=50 e =10, encontre a probabilidade de que X assuma valores entre 45 e 62. • Solução: Z=(X-µ)/ . Assim, os valores z correspondentes a 45 e 62 são: z1=(45-50)/10=-0.5 e z2=(62-50)/10=1.2 P(45<X<62) = P(-0.5<z<1.2) = P(z<1.2)- P(z<-0.5) = 0.8849-0.3085=0.5764. UERJ – © Oscar Luiz Monteiro de Farias 44 Exemplo 2 • Dada uma distribuição normal com µ=40 e =6, encontre o valor de x tal que: a) 45% da área esteja à esquerda; b) 14% da área esteja à direita. • Solução: P(z<z*)=0.45. Da tabela normal seguese que z*=-0.13. Daí X = *z +µ = 6 *(-0.13)+40 X=39.22 P(z>z´)=0.14 e P(z<z´)=0.86 e z´=1.08 X = *z +µ = 6 *(1.08)+40 = 46.48 UERJ – © Oscar Luiz Monteiro de Farias 45 Exemplo • Um certo tipo de bateria dura em média 3.0 anos, com um desvio padrão de 0.5 anos. Assumindo que o tempo de vida das baterias tenha uma distribuição normal, encontre a probabilidade de que uma dada bateria dure menos que 2.3 anos. • Solução: Devemos encontrar P(X<2.3); Isto se consegue através da transformada Z=(X-µ)/ Z=(2.3-3)/0.5=-1.4 P(X<2.3)=P(Z<-1.4)=0.0808. UERJ – © Oscar Luiz Monteiro de Farias 46 UERJ – © Oscar Luiz Monteiro de Farias 47 UERJ – © Oscar Luiz Monteiro de Farias 48 Distribuição log-normal... • Em alguns casos os histogramas exibem forte assimetria. Tal fato é comum no estudo de concentrações químicas e em outros atributos. • Contudo a distribuição pode tornar-se próxima da normal quando se aplica a transformação Ln (natural log) à variável randômica não-normal X, i.e., Y = Ln X. • Diz-se que a variável X tem uma distribuição log-normal. UERJ – © Oscar Luiz Monteiro de Farias 49 Distribuição log-normal... exp( 0 . 5 ) exp( 2 )[exp( ) 1 ] y 2 y 2 y 2 y 2 y • A exponencial da média aritmética do dado log transformado Ln z é a média geométrica: n n 1 n G x exp[ ln x ] i i n i 1 i 1 UERJ – © Oscar Luiz Monteiro de Farias 50 Exemplo A tabela a seguir fornece 60 valores de concentração de chumbo no solo (z). Os valores são plotados na fig.A e estendem-se por um amplo domínio. Um histograma (fig.B), construído usando-se intervalos de classe de 20 (mg/Kg) mostra uma preponderância de pequenos valores nas classes 0-20, 20-40 e 40-60. Contudo existem valores maior que 100 e pelo menos dois deles superiores a 250. Fazendo-se y = ln z (fig. C) os valores mostram-se mais uniformemente distribuídos, como se nota pelo histograma da transformada (fig. D). Isto não significa necessariamente que a distribuição é log-normal. Mas testes seriam necessários para comprovar isto. UERJ – © Oscar Luiz Monteiro de Farias 51 UERJ – © Oscar Luiz Monteiro de Farias 52 UERJ – © Oscar Luiz Monteiro de Farias 53 UERJ – © Oscar Luiz Monteiro de Farias 54 UERJ – © Oscar Luiz Monteiro de Farias 55 UERJ – © Oscar Luiz Monteiro de Farias 56 Variância x suporte da amostra • Quanto menor o suporte da amostra observa-se que a variância assume valores maiores. UERJ – © Oscar Luiz Monteiro de Farias 57 Curva normal... • A importância da distribuição normal como um modelo de fenômenos quantitativos nas ciências naturais e comportamentais deve-se ao teorema do limite central: • Se X é a média de uma amostra randômica de tamanho n coletada de uma população com média e variância finita 2, então a forma limite da distribuição de X quando n Z / n é uma distribuição normal padrão n(z,0,1). UERJ – © Oscar Luiz Monteiro de Farias 58 Tamanhos de amostra e intervalos de confidência • Uma variável randômica normal é completamente caracterizada quando são conhecidas as suas média (µ ) e variância (). • Uma questão comum em MA e amostragem é: qual o tamanho da amostra para se estimar adequadamente estes dois parâmetros? • O tamanho da amostra ou número de localizações (n) necessários para estimar a média depende da tolerância ou erro d que estejamos dispostos a admitir na estimativa e também no grau de confidência de que o erro seja realmente menor do que d. UERJ – © Oscar Luiz Monteiro de Farias 59 Distribuição de amostragem • A distribuição de probabilidade de uma estatística é denominada uma distribuição de amostragem (sampling distribution). • A distribuição de probabilidade de X é chamada distribuição de amostragem da média. • A distribuição de amostragem de X com tamanho de amostra n é a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de X resultam . • Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ. UERJ – © Oscar Luiz Monteiro de Farias 60 A Propriedade reprodutiva • Teorema: Se X1, X2, ......, Xn são variáveis randômicas independentes tendo distribuição normal com médias μ1, μ2, ......, μn e variâncias σ1, σ2, ...... σn , respectivamente, então a variável randômica Y a X a X ... a X 1 1 2 2 n n tem uma distribuição normal com média a a ..... a Y 11 22 nn e variância a a ..... a 2 Y UERJ – 22 11 22 22 22 nn © Oscar Luiz Monteiro de Farias 61 Distribuição de amostragem das médias • Supor que uma amostra randômica com n observações é selecionada de uma população normal com média μ e variância σ2. Cada observação Xi, i=1,2,...,n, da amostra randômica terá a mesma distribuição normal da população que está sendo amostrada. Pelo teorema anterior... X X ... X ... 1 2 n X , mas X n n ... 2 2 X UERJ – 2 n 2 2 n © Oscar Luiz Monteiro de Farias 62 i) Variância da pop. é conhecida • Deseja-se estimar a média (µ) de uma variável randômica normal assumindo-se que o desvio padrão () é conhecido. • Pode-se mostrar que a média da amostra é também normalmente distribuída ( X =µ) e a 2 variância da amostra x2 n UERJ – © Oscar Luiz Monteiro de Farias 63 Distribuição de amostragem • A distribuição de probabilidade de uma estatística é denominada uma distribuição de amostragem (sampling distribution). • A distribuição de probabilidade de X é chamada distribuição de amostragem da média. • A distribuição de amostragem de X com tamanho de amostra n é a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de X resultam . • Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ. UERJ – © Oscar Luiz Monteiro de Farias 64 Usando o teorema do limite central, onde teremos: UERJ – X Z / n X P ( z z ) 1 / 2 / 2 /n © Oscar Luiz Monteiro de Farias 65 (I) P ( z /n X z /n ) 1 / 2 / 2 (z z ) 1 /2 Onde P /2 Mas, pode-se reescrever (I) como: P ( X z / n X z / n ) 1 (II) / 2 / 2 O que representa um intervalo de confiança (1-)*100% para . UERJ – © Oscar Luiz Monteiro de Farias 66 z/ 2 Agora seja o erro tolerável d n z/2 2 ] Ou ainda, n[ d Assim, para um dado nível de confiança e uma dada tolerância d, pode-se prever o tamanho da amostra. Note que os cálculos para computar o intervalo de confiança e o tamanho da amostra dependem de duas premissas importantes: i) a variável randômica seja normal; ii) o desvio padrão seja conhecido. UERJ – © Oscar Luiz Monteiro de Farias 67 • Na equação (II) nem sempre a média e o desvio padrão são conhecidos. • Após a coleta de dados, então um intervalo similar ao da equação (II) pode ser calculado: st st / 2 , n 1 / 2 , n 1 (III) P ( X X ) 1 n n Onde t/2,n-1 é obtido a partir de uma t-table ou função spreadsheet. t/2,n-1 se aproxima de z/2, à medida que n cresce. [t/2,n-1 > z/2]. UERJ – © Oscar Luiz Monteiro de Farias 68 Exemplo 3.3 • Suponha que uma amostra randômica de tamanho 16 foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja igual a 22.4. Assuma que o desvio padrão da população - - é 3.2. Deseja-se obter intervalos de confidência de 95% e de 99% para a média (desconhecida) µ. • Solução: Neste caso pode-se usar a eq. (II), pois o desvio padrão é conhecido. 1-=0.95. Logo =0.05 e /2=0.025. A partir de uma tabela normal encontra-se z0.025=1.96. UERJ – © Oscar Luiz Monteiro de Farias 69 Exemplo 3.3 Assim o intervalo de confidência de 95% corresponde a: 22.4 – (1.96*3.2)/4<µ< 22.4 + (1.96*3.2)/4 ou 22.4 -1.568 <µ< 22.4 + 1.568 • Para o intervalo de confidência de 99%: 1-=0.99, logo =0.01 e /2=0.005. A partir de uma tabela normal tem-se: 22.4 – (2.576*3.2)/4<µ< 22.4 + (2.576*3.2)/4 UERJ – © Oscar Luiz Monteiro de Farias 70 Exemplo 3.4 • Suponha que se deseje obter intervalos de confidência de 95% e 99% para a média de uma população uniformemente distribuída, em que o desvio padrão da população é 3.2. Desejando-se o máxima tolerância d=0.75, qual deverá ser o tamanho da amostra? z/2 2 n[ ] d 2 1 . 96 * 3 . 2 Logo n=70 n 69 . 93 . 75 0 2 2 . 576 * 3 . 2 Logo n=120 n 120 . 80 . 75 0 UERJ – © Oscar Luiz Monteiro de Farias 71 Algumas conclusões • I) Se o tamanho da amostra é fixo (e o desvio padrão da população - - é conhecido), então quanto maior o nível de confidência, maior será o intervalo de confidência. • II) Dada a informação (média da amostra, tamanho da amostra e desvio padrão da população), existe um intervalo de confidência para cada escolha do nível de confidência. • III) Um maior nível de confidência corresponde a uma amostra de tamanho maior, permanecendo constantes as demais condições. UERJ – © Oscar Luiz Monteiro de Farias 72 Exemplo 3.5 • Suponha que uma amostra randômica de tamanho 16 foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja 22.4 e o desvio padrão da amostra 3.2. Deseja-se obter intervalos de confidência de 95% e 99% para a média da população. • Solução: Neste caso usa-se a t-table ao invés da tabela normal, pois o desvio padrão da população não é conhecido. 1-=0.95, logo =0.05 e /2=0.025. t0.025,15= 2.131 UERJ – © Oscar Luiz Monteiro de Farias 73 Exemplo 3.5 22.4 – (2.131*3.2)/4<µ< 22.4 + (2.131*3.2)/4 Para 1-=0.99, logo =0.01 e /2=0.005 t0.005,15= 2.947, resultando em: 22.4 – (2.947*3.2)/4<µ< 22.4 + (2.947*3.2)/4 • Nota-se que o intervalo de confidência 99% é maior que o intervalo de confidência 95%, mas cada um destes dois é maior do que as suas contrapartes, quando o desvio padrão da população é conhecido. • Quando o tamanho da amostra é maior ou igual a 30, os valores da t-table aproximam-se dos valores na tabela normal. UERJ – © Oscar Luiz Monteiro de Farias 74 Exemplo 3.6 • Em aplicações reais, o desvio padrão da população pode não ser conhecido e, mesmo assim, deseja-se prever o tamanho da amostra para um dado nível de confidência para a média da população, i.e., deseja-se fixar o nível de confidência e a tolerância. • O problema deve ser resolvido em vários passos. define-se um tamanho de amostra baseado em outras considerações, tais como custo da amostragem, facilidade da amostragem, etc.) Seleciona-se a amostra e computa-se o seu desvio padrão - s -. UERJ – © Oscar Luiz Monteiro de Farias 75 Exemplo 3.6 Usa-se s como se fosse o desvio padrão da população e computa-se o tamanho da amostra. Se o valor projetado para o novo tamanho da amostra é maior que o tamanho da amostra anterior, deve-se coletar uma nova amostra (cuidado! em geral não se pode adicionar novas observações à amostra anterior; tal procedimento não resultaria em uma amostra randômica). Continua-se o processo descrito em até que o novo tamanho projetado da amostra seja próximo ao tamanho da amostra anterior. UERJ – © Oscar Luiz Monteiro de Farias 76 Exemplo 3.6 Usa-se, então, a média da última amostra coletada e o desvio padrão desta última amostra, juntamente com valor (n-1) da t-table, para gerar-se o desejado intervalo de confidência. Não há garantia alguma de que este processo páre rapidamente. Conclusão: estimar o desvio padrão é mais complexo que estimar-se a média µ. UERJ – © Oscar Luiz Monteiro de Farias 77 Exemplo 3.7 • A partir dos dados da tabela 3.1 (percentuais de argila), encontramos a média da amostra = 35.3 e o desvio padrão da amostra = 6.38. O tamanho da amostra é n=36. Os níveis de confidência são especificados em 95% e 99%. Para 1-=0.95, logo =0.05 e /2=0.025. t0.025, 35=2.030 e assim o intervalo de confidência é: 35.3 – (2.030*6.38)/6<µ< 35.3 + (2.030* 6.38)/6 Para 1-=0.99, logo =0.01 e /2=0.005 t0.005,35= 2.738, resultando em: 35.3 – (2.738*6.38)/6<µ< 35.3 + (2.738* 6.38)/6 UERJ – © Oscar Luiz Monteiro de Farias 78 Exemplo 3.7 • Pode-se pensar que estes intervalos de confidência são muito largos (elevada tolerância) e deseja-se obter mais amostras. Qual deveria ser o tamanho da amostra para se obter uma tolerância de 0.8, com um nível de confidência de 95%? • Para 1-=0.95, logo =0.05 e /2=0.025, t0.025, 35=2.030 2 2 . 030 * 6 . 38 n 262 . 09 Usar n=263 . 8 0 2 2 . 738 * 6 . 38 intervalo de confidência=0.99% n 477 . 8 0 UERJ – © Oscar Luiz Monteiro de Farias 79 Testes adicionais • Existem meios de se testar se uma distribuição é normal UERJ – © Oscar Luiz Monteiro de Farias 80 Covariância... • Covariância é a medida do quanto duas variáveis randômicas mudam conjuntamente. • Se duas variáveis randômicas X e Y tendem a variar juntas (i.e., quando uma delas está acima do valor esperado, então a outra tende a estar também acima do seu valor esperado) então a covariância entre as duas variáveis será positiva. • Por outro lado, se uma delas tende a estar acima do seu valor esperado e, outra, abaixo do seu valor esperado, a covariância entre as duas variáveis será negativa. UERJ – © Oscar Luiz Monteiro de Farias 81 Covariância... • Definição: A covariância entre duas variáveis randômicas X e Y, assumindo valores reais, com valores esperados E(X)=µ e E(Y)= é definida por: COV(X,Y)=E((X-µ)(Y- )), onde E é o operador valor esperado. COV(X,Y)=E(X.Y-X.-µ.Y+µ.) COV(X,Y)=E(X.Y)-E(X). -µ.E(Y) +µ. COV(X,Y)= E(X.Y)-µ. = E(X.Y)- E(X). E(Y) UERJ – © Oscar Luiz Monteiro de Farias 82 Coeficiente de correlação de Person Cov ( X , Y ) , 1 1 Se ||=1, então X e Y são . x y linearmente dependentes. • A covariância pode ser estimada pela covariância da amostra: 1n s ( x x )( y y ) xy i i n 1 i 1 • O coeficiente de correlação da amostra é uma forma sxy normalizada da covariância da amostra: r UERJ – © Oscar Luiz Monteiro de Farias sx sy 83 Coeficiente de correlação • O coeficiente de correlação indica a intensidade e a direção de uma relação linear entre duas variáveis randômicas. UERJ – © Oscar Luiz Monteiro de Farias 84 Distribuição normal multivariada • A distribuição normal é completamente determinada pela sua média µ e pela sua variância . • Uma distribuição normal multivariada é completamente determinada pelo vetor das médias e pela matriz de variâncias e covariâncias. Ex. para 3 variáveis randômicas: s12 s12 s13 2 Ss21 s2 s23 s s s2 31 32 3 UERJ – © Oscar Luiz Monteiro de Farias 85 Regressão Linear UERJ – © Oscar Luiz Monteiro de Farias 86