Estimação dos parâmetros Estatística Estimação dos parâmetros Pontos mais importantes: -método dos momentos -método de máxima verosimilhança -intervalos de confiança para a média de distr. normal: s2 conhecida -intervalos de confiança para a média de distr. normal: s2 incógnita -estimação de diferença na m entre duas populações normais -intervalos de confiança para a variância de distr. Normal -intervalos de confiança para a média de distr. Bernoulli -eficiência de um estimador pontual: “mean square error” e “bias” 1 Estimação dos parâmetros Estatística Seja X1, X2,..., Xn uma amostra de F completamente definido pelo um vector dos parâmetros P (e.g. uma distr. normal P={m s2}). Teoria de probabilidades: o vector P é supostamente conhecido questões de probabilidade Estatística: o vector P é incógnito estimação dos parâmetros com estimadores estimação dos parâmetros estimador pontual (um valor só) estimação do intervalo a onde o parâmetro cai intervalo de confiança 2 Estatística Estimação dos parâmetros Método dos momentos -Seja uma amostra X1, X2,..., Xn de F com parâmetro P incógnito. -Suponha: P=g(E[X]) -Assim: ˆ = g X ) P -Não todos os parâmetros podem ser escritas em função do E[X] só. E.g. a variância: s2 = E[X2 ] - E2[X] = g(E[X], E[X2 ]) 3 Estatística Estimação dos parâmetros -Em geral: P=g(E[X], E[X2],..., E[Xr]) e ˆ = gM1, M2 ,...Mr ) P -onde Mk representa o momento amostral de ordem k: k X i=1 i n Mk = n 4 Estatística Estimação dos parâmetros Exemplo: Determine o estimador da média e variância de uma população normal com o método dos momentos. m = E[X] s2 = E[X2 ] - E2 [X] solução: mˆ = n i =1 i=1 X n sˆ 2 = n n n Xi i =1 n i=1 Xi2 nX 2 n = 2 i Xi n X ) 2 = 2 X i=1 i n n X2 = 2 2 ( X X ) ( X X ) i s 2 = i =1 i = i =1 n n 1 n n 5 Estatística Estimação dos parâmetros Método de máxima verosimilhança Suponha que X1, X2,..., Xn são variáveis aleatórias. A função f(X1, X2,..., Xn) é assumida ser conhecida excepto P. Porque P é desconhecido, f(X1, X2,..., Xn) depende de P. A função f(X1, X2,..., Xn| P) representa a probabilidade (ou densidade de prob.) da mostra ser x1, x2,..., xn para o vector dos parâmetros P. A estimativa máxima verosimilhança do P é o vector que maximiza a probabilidade das observações serem x1, x2,..., xn, ou : ˆ max f x1, x 2 ,...x n | P ) f(X1, X2,..., Xn| P) também chama-se função de verosimilhança. 6 Estatística Estimação dos parâmetros Amostra normal de tamanho n: X1, X2,..., Xn são v.a.s independentes, m e s? ( x1 m ) 2 ( x n m ) 2 ( x i m ) 2 n 1 1 1 2 2 2 f ( x1 ,...,x n | m s) = e 2s ... e 2s = e 2s = s 2 s 2 i =1 s 2 n n ( x i m ) 2 1 2 1 2 1 = n e 2s 2 s -tirando o logaritmo: 2 ( x m ) n i ln f (x1 ,...,x n | m s) = ln(2) n ln s 1 2 2 2s n 7 Estatística Estimação dos parâmetros -a estimativa máxima verosimilhança de m e s é obtida nos pontos mˆ e sˆ igualando as derivadas a zero: ln f ( x1 ,...,x n | mˆ sˆ ) =0= m ln f ( x1 ,...,x n | mˆ sˆ ) n =0= s s (x n 1 i mˆ ) sˆ 2 x X ) mˆ = i n 1 (x i mˆ ) 2 n sˆ 3 (x n sˆ = 1 i n m) 2 s ) 8 Estatística Estimação dos parâmetros Intervalos da confiança para o valor média normal (s conhecido) m X mX -Por vezes, é vantajoso definir um intervalo () tal: PX m X ) = 90; 95; 99; 99,5% etc. -Sabemos que: Z= n X m ~ N(0,1) s X m P 1,96 Z = n 1,96 = 0,95 s s s P X 1,96 m X 1,96 = 0,95 n n ou, 9 Estatística Estimação dos parâmetros s s ,chama-se intervalo de m X 1,96 n n confiança (“bilateral”) a 95%. -O intervalo X 1,96 Porquê 1,96 ? P(Z<-1,96)=0,025, P(Z>1,96)=0,025 0,025+0,025=0,05 Assim a probabilidade que m está no intervalo é 1-0,05=0,95 -“unilateral” intervalo de confiança: s P X 1,64 m = 0,95 n “pelo menos” ou s P m X 1,64 = 0,95 n “não é maior que” 10 Estimação dos parâmetros Estatística 11 Estatística Estimação dos parâmetros -em geral o intervalo de confiança com nível de confiança P=1a : s s P X Za / 2 m X Za / 2 = 1 a n n s P X Za m = 1 a n PZ z a 2 ) = PZ z a 2 ) = a a a =a 2 2 s P m X Za = 1 a n 12 2 Estatística Estimação dos parâmetros Exemplo: Calcule o 95% intervalo de confiança para o coeficiente de transferência do calor (h) num permutador de calor se os valores calculados após 9 experiências são (W/m2K): 502, 488, 495, 504, 511, 493, 490, 512, 507 com s=8. h= h n i = 502 488 507 = 500,2 9 8 8 500 ,2 1,96 m 500 ,2 1,96 3 3 mh =500,25,3 W/m2K com 95% confiança 13 Estatística Estimação dos parâmetros Intervalos da confiança para o valor média normal (s incógnita) Geralmente a variância de população não é conhecida, mas podemos construir intervalos de confiança para t = n X m a s mesma forma. s s P X t a / 2,n 1 m X t a / 2,n 1 = 1 a n n n X m ~ t n -1 s ou s s m X t a / 2,n 1 , X t a / 2,n 1 n n com (1-a) percentagem de confiança 14 Estatística Estimação dos parâmetros Exemplo: Calcule o 95% intervalo de confiança para o coeficiente de transferência do calor (h) num permutador de calor se os valores calculados após 9 experiências são (W/m2K): 502, 488, 495, 504, 511, 493, 490, 512, 507. h=500,2 t0.025,8=2,306 s= 2 2 h n h i n 1 = 502 488 507 ) 9 500,2 500 ,2 2,306 2 2 2 8 2 = 10,3 10,3 10,3 m 500 ,2 2,306 3 3 mh =500,2 7,9 W/m2K com 95% confiança 15 Estimação dos parâmetros Estatística 16 Estatística Estimação dos parâmetros Estimação de diferença na m entre duas populações normais Sejam X1,..., Xn e Y1,..., Ym duas mostras normais e independentes. Como podemos estimar mxmy e a correspondente intervalo de confiança? mˆ x = X , mˆ Y = Y mX mY mˆ X mˆ Y = X Y 2 s X ~ N(m X , X ) s 2X s 2Y . n indep X Y ~ N m X m Y , 2 n m s Y ~ N(m Y , Y ) m 17 Estatística Estimação dos parâmetros Assim já é fácil construir o intervalo de confiança para a diferença porque: Z= X Y (m X m Y ) s s n m 2 X 2 Y ~ N(0,1) X Y (m X m Y ) P Za / 2 Za / 2 = 1 a 2 2 s s X Y n m (P(|Z|>za/2)=a) ou 2 2 2 2 s s s s X Y X Y P XY Za / 2 (m X m Y ) X Y Za / 2 = 1 a n m n m 18 Estatística Estimação dos parâmetros -se sX e sY forem desconhecidos, é complicado determinar o tipo de distribuição: X Y (m X m Y ) s 2X s 2Y n m -de facto, só pode ser deduzida assumindo que sX = sY. X Y (m X m Y ) P t a / 2 , n m 2 t a / 2,n m 2 = 1 a 2 2 1 1 (n 1)s X (m 1)s Y nm2 n m 19 Estatística Estimação dos parâmetros Intervalos da confiança distribuição normal para a variância da Podemos calcular os intervalos de confiança para s2 simplesmente usando a seguinte informação: (n-1)s2/s2 ~ c2n-1 assim 2 s2 P c 1a / 2,n 1 (n 1) 2 c 2 a / 2,n 1 = 1 a s ou (n 1)s 2 (n 1)s 2 2 = 1 a P 2 s 2 c 1a / 2,n 1 c a / 2,n 1 20 Estatística Estimação dos parâmetros Exemplo: Tiramos uma amostra n=10 de vinho tinto e medimos a correspondente concentração de açúcar (C, kg/l). Determine o intervalo de confiança a 90% para o desvio padrão. Os resultados: 0,123, 0,124, 0,126, 0,120, 0,13, 0,133, 0,125, 0,128, 0,124 e 0,126 c20,05, 9 =16,917 c20,95, 9 =3,334 C C= n s 2 C C = 2 i nC 2 n 1 i = 0,123 0,124 0,126 = 0,1259 10 0,123 0,124 0,126 )10 0,1259 = 2 2 2 2 9 = 1,366105 1,36610-5 1,36610-5 2 9 s 9 16,917 3,334 s 2,696103 ; 6,072103 ) (kg/l) 21 Estimação dos parâmetros Estatística 22 Estatística Estimação dos parâmetros Intervalos da confiança (aproximado) para o valor média normal (p) de uma variável Bernoulli Se np for suficientemente grande, uma variável binomial pode ser aproximada: X np ~ N(0,1) np(1 p) Onde, p é a probabilidade de sucesso ou valor de esperança de correspondente variável Bernoulli. Assim, uma aproximação do 1-a intervalo de confiança para o valor média pode ser obtida a partir: P Z a / 2 X np Za / 2 1 a np(1 p) P Za /2 x) = a ) 23 Estatística Estimação dos parâmetros Aplicando que um estimador pontual do P pode ser escrito: p=X/n Temos, X np P Za / 2 Za / 2 1 a X X(1 ) n Arengar a equação anterior para P temos: X P n X X (1 ) n Z p X a /2 n n X X (1 ) n Z 1a a /2 n 24 Estatística Estimação dos parâmetros Eficiência de um estimador pontual Seja X1,..., Xn uma amostra com parâmetro P não conhecida. ˆ como estimador do P. Quanto é que vale P ˆ ? Utiliza-se P O valor de estimador pode ser caracterizado por o “ mean square error” (desvio quadrático do parâmetro): ˆ ,P)=E[(P ˆ -P)2] r(P O estimador que minimiza r é o melhor estimador, infelizmente raramente existe. 25 Estatística Estimação dos parâmetros Um bom estimador diz-se não-enviesado se o seu valor de esperança matemática é igual com o parâmetro da população. ˆ )): Definição do enviesamento (bP(P ˆ)=EP ˆ P bP (P Seja X1,..., Xn uma amostra. b=? se a estimador de m foram 1) X1 e 2) X 1) E[X1]= m -> b1=0 2) E[(X1+X2+,...,+Xn)/n]=m -> b2=0 Generalizando: bm=0 se: n mˆ = i X i i =1 n se i =1 i =1 26 Estatística Estimação dos parâmetros -o “mean square error” de um estimador com b=0: ) ) ) = Var(Pˆ ) 2 ˆ ˆ ˆ E P ˆ r P, P = E P P = E P 2 -o “mean square error” de um estimador com b0: ) ) 2 ˆ ˆ ˆ ) bP2 (P) r P, P = E P P = Var (P -combinação de dois estimadores independentes: ˆ = P ˆ 1 (1 )P ˆ2 P ˆ , P) = Var (P ˆ ) = 2Var (P ˆ 1 ) (1 )2 Var (P ˆ 2) r(P minimizar r: ˆ , P) d r (P ˆ 1 ) 2(1 )Var (P ˆ 2) = 0 = 2Var (P d 27 Estatística Estimação dos parâmetros 1 s12 = 1 2 1 2 s1 s2 Exemplo: Suponha que mandamos duas amostras do rio Douro para dois laboratórios independentes com o objectivo de determinar (estimar) a concentração dos ácidos na água ma. Os resultados são (mg/l): a1 = 10 s12 = 2 a 2 = 13 s 22 = 1 1 2 = 0,5 = 1 1 1 1,5 3 2 1 1 2 mˆ a = a1 (1 )a 2 = 10 13 = 12 3 3 = 28