Estatística Amostragem Amostragem Pontos mais importantes: -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição empírica e histograma -escolha de amostras aleatórias -amostragem de distribuição normal, teorema de limite central -distribuições t e c2 -amostragem de distribuição binomial 1 Estatística Amostragem Num estudo confronta-se com uma grande colecção (quantidade) de elementos de interesse ou população. Geralmente as conclusões sobre a população está baseada de analise de um número (pouco) de observações ou amostra. amostragem população amostra analise conclusões Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a mesma distribuição Fx constitui uma amostra da distribuição Fx. 2 Estatística Amostragem Para tirar conclusões válidas (correctas) sobre qualquer população, a amostra tem de ser representativa Amostra Como tirar uma amostra representativa? Tamanho? Amostra mais representativa é uma amostra aleatória Amostra aleatória: qualquer membro de população têm a mesma probabilidade de ser escolhido como uma mostra 3 Estatística Amostragem Parâmetros • Uma medida directamente associada a população: - valor de esperança (m) - variância - etc. Estatísticas • Quantidades calculadas (completamente determinadas pela) de uma amostra: -média amostral -variância amostral -etc. As estatísticas são estimativas dos parâmetros da população. Cada amostra duma população resulta noutra estimativa estatísticas são v.a.-s. 4 Estatística Amostragem Medidas de tendência central: x i P(X x i ) Valor média (pesada) de v.a. X: E[X]=m xf ( x )dx Definição de média amostral: X1 X 2 ... X n X n 5 Amostragem Estatística X é uma v.a., por isso: X X 2 ... X n 1 EX E 1 EX1 EX 2 ... EX n n n 1 m m ... m m EaX aEX ! n X X 2 ... X n 1 Var X Var 1 2 Var X1 Var X 2 ... Var X n n n n 2 2 2 Var(aX) a 2Var(X) ! n n n n Var X i Var (X i ) i 1 i 1 ! No caso que m não ser conhecido, a média amostral representa uma estimativa natural. 6 Estatística Amostragem A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em que é igualmente provável obter x superior ou inferior a m. P(Xm)=P(Xm)= 1/2 ou F(m)=1/2 Suponha que nos queremos escolher c numa forma que o erro absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo: E X c c c x c f (x )dx x c f (x )dx x c f (x)dx c c c c (c x )f ( x )dx ( x c)f ( x )dx cF(c) xf ( x )dx xf ( x )dx c(1 F(c)) diferenciação por c : d E X c dc F(c) F(c) cf (c) cf (c) cf (c) 1 F(c) cf (c) 2F(c) 1 0 1 c m 2 7 Estatística Amostragem Nota: De igual modo, podemos definir outros Percentisx), e.g 25%, 50% (m), 75% Exemplo: calcule a mediana de distribuição Weibull, F(x) 1 e x 2 x>0 1 / 2 F ( m) 1 e m e m 1 / 2 2 2 m 2 ln(0.5) m 2 ln(2) m ln 2 0.833 Definição da mediana amostral (xk): seja X1 X2 ... Xn uma amostra ordenada, a mediana amostral é: xk=0.5(x(0.5n)+x0.5n+1) se n é par xk= x(0.5(n+1)) se n é ímpar A mediana amostral representa uma estimativa natural de m 8 Estatística Amostragem Exemplo: n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42 -> mediana (i=4): 0.35 n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42 -> mediana ((x4+x5)/2): 0.375 9 Estatística Amostragem O valor mais frequente numa população chama-se moda (a): P(a ) maxP(x) x P(X x i ) P(x) f ( x )h A moda de uma amostra aleatória é o valor que ocorre com a maior frequência. Exemplo: n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42 -> moda : 0.35 10 Estatística Amostragem Medidas de dispersão: Var[X]=2= E[(X-m)2] Variância da v.a. X: A estatística, variância e desvio padrão amostral, é definida pela: (x i X) 2 S n 1 i 1 2 ( x X ) S S2 i n 1 i 1 n n 2 e ou n S2 i 1 n x i 1 n 1 x 2 n n x X 2 (x i X) ( x 2x i X X ) i 1 i 2X i 1 i 1 n 1 n 1 n 1 n 1 n 1 i 1 2 2 n 2 n 2 i n 2X 2 nX nX n 1 n 1 x i 1 2 i i i nX 2 n 1 11 Estatística Amostragem Grau de liberdade: a expressão anterior também se escreve, 2 ( x X ) S2 i i 1 n onde é o grau de liberdade. Porque =n-1? (y1 m) (y2 m) ... (yn m) (y m) 0 Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são independentes. 12 Estatística Amostragem O que podemos dizer sobre o valor de esperança de S2? n 2 E (n 1)S E xi nE X 2 nE X 2 nE X 2 i 1 2 EX m Agora sabendo: ; Var(U) E[U2 ] - E[U]2 ou 2 EX m2 n 2 Temos: e 2 Var X n ; E[U2 ] Var(U) E[U]2 E X 2 2 m2 2 2 E (n 1) S n( m ) n m (n 1) 2 n 2 2 2 E S2 2 A variância amostral representa uma estimativa natural de 2 13 Estatística Amostragem Distribuições empíricas: Às vezes, podemos querer obter informação global sobre a distribuição da população (não só sobre os parâmetros). A função de distribuição empírica Fn(x), onde -<x< , é definida pela número de observasõe s k, tal que : X k x k Fn ( x ) n n V.a. discreta, a função de distr. de probabilidade empírica(pn): pn ( j ) número de valores i : X i j i n n pn(j) também chama-se proporção. 14 Estatística Amostragem Exemplo: Amostra: 322445551361163323461134245331 Amostra ordenada: 111111222233333333444445555666 Distribuição empírica: 1 2 3 4 5 6 p(xi) 6/30 4/30 8/30 5/30 4/30 3/30 F(xi) 6/30 10/30 18/30 23/30 27/30 30/30 Estatística Amostragem V.a. continua, a função de distr. de frequência (fn): f n ( j) número de valores i na mostra : X i j n O gráfico de distribuição de frequência chama-se histograma: 60 50 frequency 40 30 20 10 0 0 2 4 6 8 10 F-value, min 16 Estatística Amostragem Selecção de amostras aleatórias: Descrição mais representativa das propriedades da população é fornecida por uma amostra aleatória, onde qualquer membro da população têm a mesma probabilidade de ser escolhido. Como? Distribuição uniforme(Ua,b)): f(x) 1 f (x) b a 0 a x b para outros 1 ba P (a X b ) dx b a a ba b ba1 E[X]= ba/2 a b U(0,1) chama-se número aleatório Var(X)= ba2 /12 17 Estatística Amostragem Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n vamos definir: 1 Ij 0 j está na mostra j não está mostra Para o primeiro elemento I1: P(I1=1)=k/n Para o segundo elemento I2: P(I2=1| I1=1)=(k-1)/(n-1) e, P(I2=1| I1=0)=(k)/(n-1) ou P(I2=1| I1)=(k-I1)/(n-1) j1 Em geral: P(I j 1 | I1 ,...,I j1 ) k Ii i 1 n j 1 j 2,...,n 18 Estatística Amostragem Seja U um número aleatório (U(0,1)), assim P(U<a)=a 1 I1 0 1 I2 0 1 Ij 0 U1 k / n para outros k I1 n 1 para outros U2 Uj k I1 ... I j1 n j 1 para outros 19 Amostragem Estatística Escolha aleatoriamente k=2 de n=5 20 Estatística Amostragem U1(0.68587)>0.4 U2(0.25848)<0.5 (2,X) U3(0.85227)>1/3 U4(0.78724)>0.5 (2,5) 21 Estatística Amostragem Amostragem de distribuição normal: Distribuição normal (Nm,2)): A distribuição normal tem importância elevada entre as distribuições especiais, porque muitos fenómenos seguem, pelo menos aproximadamente, distribuição normal: -altura de pessoas -movimento “Braun” das moléculas -o erro na medição de uma quantidade física 1 f (x) e 2 ( x m ) 2 22 22 Estatística Amostragem E[X]=m Var[X]=2 - inflexão m m 23 Estatística Amostragem Seja X Nm,2), a Y=aX+B é uma v.a. Nam+b,a22). Por isso a variável Z=(x-m)/ tem uma N(0,1): m X m X m 1 E[ Z] E E E E X 0 2 X m 2 X 2 2Xm m 2 X m X m Var ( Z) Var E E E 2 X2 m2 1 2 2 2 E 2 2 2 E[X ] E[X] 2 1 Z chama-se distr. normal padrão, e permite-nos facilmente calcular as probabilidades de X em termos de probabilidade de Z. 24 Estatística Amostragem f(x) P(X>m, X<m68% P(X>m2, X<m2 96% -tabelas de P(z<x)=f(x) para calcular probabilidades -Exemplo: m3 e 2=16, calcule X<7 7 3 X m 7m P(X 7) P P z 1 f(1) 1 0.1587 0.8413 4 25 Estatística Amostragem f(z) 26 Estatística Amostragem Teorema de limite central: A soma de um grande número de variáveis aleatórias independentes tem uma distribuição normal. Fenómenos físicos (e não só) estão afectados por um grande número de factores, consequentemente seguem uma distr. normal. Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição (mas não necessariamente normal) com m e 2. Então para n grande: X1 X 2 ... X n nm ~ Z(0,1) n Muitas técnicas de estatística estão baseadas de pre-suposição de normalidade -exemplo: distr. da média do lançamento de n dados 27 Amostragem Estatística 28 Estatística Amostragem Recordar: Assim: 1 X x1 x 2 x n , n n EX m e 2 Var X n X m ~ N(0,1) Variância da população é estimada pela s2. O que podemos dizer X m sobre a distribuição de t=(x-m)/s ou t n ? s t tem uma distribuição conhecida que chama-se distribuição Student “t” com grau de liberdade. 29 Estatística Amostragem Distribuição Student tn: Seja Z [N(0,1)] e X (c2) duas v.a. independentes. Distribuição t está definida pela, t Z X - t f(t)- complicado (tabelas) E[t]=0 Var[t]=/(-2) para n grande t~Z 0 30 Amostragem Estatística 31 Estatística Amostragem Outra característica importante da amostra de uma distribuição normal, é que X e s2 são independentes, e a v.a. (n-1)s2/2 tem uma distribuição c2 com n-1 grau de liberdade Distribuição “Chi-quadrado”, c2(): Se foram Z,1, Z2,... Zn v.a. normais padrão. A v.a. X: X= Z21+ Z22,...+ Z2n X>0 tem uma distribuição chi-quadrado com graus de liberdade. f(x)- complicado (tabelas) E[X]= Var[X]=2 32 Amostragem Estatística 33 Estatística Amostragem Porquê é importante saber a distribuição de t n 1)s2/2 ? X m s e X=(n- Porque podemos dar respostas sobre questões como: -qual é a probabilidade da média da população ser m , se a média de amostra é x -qual é a probabilidade da variância da população ser 2 , se a variância de amostra é s2 34 Estatística Amostragem Amostragem de distribuição binomial: Distribuição Bernoulli e binomial (Bin,p)): Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g. resposta “sim” num inquérito tipo sim/não P(X=0)= 1-p P(X=1)= p E[X]=1P(X=1) + 0P(X=0)= p Var(X)=E[X2]- E2[X]=p-p2=p(1-p) 35 Estatística Amostragem Suponha que faça-se n experiências independentes de uma variável aleatória Bernoulli com probabilidade P de sucesso. Neste caso o número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com a função distr. de probabilidade: n i n i n i pX i P 1 P n Ci Pi 1 P i O valor de esperança matemática e a variância é dada por: n EX EX i nP i 1 n Var( X ) Var( X i ) nP(1 P) i 1 36 Amostragem Estatística 37 Estatística Amostragem Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,..., +Xn tem uma distribuição aproximadamente normal. Se for np suficientemente grande, X nP ~ N (0,1) nP(1 P) Assim, X nP ~ N (0,1) P(1 P) 38