Variáveis Aleatórias Definição: Uma variável aleatória v.a. é uma função que associa elementos do espaço amostral a valores numéricos, ou seja, X : Ω → A , em que A ⊆ ℜ. Esquematicamente As variáveis aleatórias são classificadas em dois tipos: VA discreta: é aquela para a qual o conjunto A é um conjunto finito ou infinito enumerável Exs.: A = {1, 2, 3, 4, 5, 6}, A = = {0, 1, 2, 3, 4,.......∞}, etc. VA contínua: é aquela para a qual o conjunto A é um conjunto infinito não enumerável, ou seja, é uma v.a. que assume valores em intervalos de números reais Exs.: A = ℜ = (−∞,∞), A = [0,1] ⊂ ℜ , etc. Notas: Para v.a.’s contínuas, a função que normalmente associa pontos de Ω ao conjunto A ⊆ ℜ, é a função identidade; Para v.a.’s discretas, a função que normalmente associa pontos de Ω ao conjunto A ⊆ ℜ, é uma contagem ou soma. Exemplo: Três jogadores A, B e C cobram um penalti cada um. a) Quais os resultados possíveis? b) Como definir uma v.a.? c) Como associar probavilidade a essa uma v.a.? Sejam os eventos A = o jogador A marca o penalti, B = o jogador B marca o penalti e C = o jogador C marca o penalti a) Ω = { ABC, ACBC, ABCC, ABCC, ACBCC, ACBCC, ABCCC, ACBCCC } é o espaço amostral. b) Temos pelo menos duas formas de definir uma variável aleatória nesse caso: (i) X1 = número de gols marcados nas três cobranças ou (ii) X2 = número de gols não marcados nas três cobranças. Vamos considerar X = número de gols marcados nas três cobranças X(ABC) = 3 X(ACBC) = X(ABCC) = X(ABCC) = 2 X(ACBCC) = X(ACBCC) = X(ABCCC) = 1 X(ACBCCC) = 0 • Por conveniência, vamos utilizar a notação simplificada para representar os possíveis valores de uma v.a.: X(ABC) ⇒X=3 X(ACBC) = X(ABCC) = X(ABCC) ⇒ X = 2 X(ACBCC) = X(ACBCC) = X(ABCCC) ⇒ X = 1 X(ACBCCC) ⇒X=0 Assim pode-se escrever: P(X = 3) = P(ABC) = 0.6732 P(X = 2) = P(ACBC ∪ ABCC ∪ ABCC) = 0.2854 P(X = 1) = P(ACBCC ∪ ACBCC ∪ ABCCC) = 0.0396 P(X = 0) = P(ACBCCC) = 0.0018 Função de probabilidade de uma v.a. discreta A função que associa probabilidades aos possíveis valores de uma v.a. discreta X, é chamada de função de probabilidade discreta e é representada por: p(x) = P(X = x), x ∈ A. Propriedades: a) 0 ≤ p(x) ≤ 1; b) ∑ p ( x) = 1 . x∈A Exemplo: No exemplo dos 3 jogadores, temos A = { 0, 1, 2, 3 } e: x p(x) 0 0.0018 1 0.0396 2 0.2854 3 0.6732 p(x) assim definida, é uma função que associa probabilidades à v.a. X = número de gols narcados nas 3 cobranças de penaltis. Exemplo: Um atirador acerta a “mosca” de um alvo 80% das vezes. Se ele realiza dez tiros, a) Defina uma variável aleatória para esse caso. Qual é a probabilidade de que ele acerte o alvo: b) exatamente uma vez? c) pelo menos uma vez? d) no máximo três vezes? (escreva essas probabilidades em termos da v.a.) a) Vamos definir a v.a. X = número de acertos nos dez tiros Desta forma temos que A = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }, ou seja p(x) = P(X = x), em que x ∈ { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }. b) A probabilidade de que o atirador acerte o alvo exatamente uma vez pode ser representada por: P(X = 1). Se o atirador acerta o alvo em 80% das vezes, então, em cada tiro ele tem probabilidades 0.80 de acertar e 0.20 de errar. Sendo A = acerto e E = erro e considerando que ele acerte o primeiro tiro, temos que A/E A E E E E E E E E E prob. 0.80 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.20 tiro 1 2 3 4 5 6 7 8 9 10 Assim, a probabilidade de que ele acerte uma única vez, sendo este o primeiro tiro é igual a: (0.80)⋅(0.20)9 Como ele pode acertar o primeiro tiro ou o segundo ou o terceiro ... ou o décimo, então ele tem dez vezes essa probabilidade, então: 10 P(X = 1) = 10⋅(0.80)⋅(0.20)9 = ⋅(0.80)1⋅(0.20)9 = 4.096×10-6. 1 c) Se o atirador acerta pelo menos uma vez, então, ele pode acertar uma vez ou duas vezes ou três vezes ... ou dez vezes, portanto, a probabilidade de que o atirador acerte pelo menos uma vez pode ser escrita por: 10 P(X ≥ 1) = ∑ P ( X = x) = P(X = 1) + P(X = 2) + ...+ P(X = 10). x =1 Mas, utilizando o evento complementar, podemos escrever a probabilidade do atirador acertar pelo menos uma como sendo um menos a probabilidade de que ele erre todos os tiros, ou seja: P(X ≥ 1) = 1 – P(X = 0) = 1 – (0.20)10 = 0.9999999 d) A probabilidade do atirador acertar no máximo três vezes pode ser escrita como: P(X ≤ 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3). Mas: 10 P(X = 0) = ⋅(0.80)0⋅(0.20)10 = 1.024×10-7 0 10 P(X = 1) = ⋅(0.80)1⋅(0.20)9 = 4.096×10-6 1 10 P(X = 2) = ⋅(0.80)2⋅(0.20)8 = 7.3728×10-5 2 10 P(X = 3) = ⋅(0.80)3⋅(0.20)7 = 7.86432×10-4 3 Logo, P(X ≤ 3) = 8.644×10-4. No exemplo acima podemos escrever uma fórmula geral para as probabilidades: 10 P(X = x) = ⋅(0.80)x⋅(0.20)10 – x. x Generalizando um pouco mais, podemos pensar num atirador que tem um índice de acertos maior ou menor do que os 80%, como por exemplo: 95%, 70%, 40%, etc... Como esse índice de acertos pode ser expresso como uma proporção entre 0 e 1, podemos definir uma quantidade 0 ≤ p ≤ 1, como sendo a probabilidade de que, num tiro, o atirador acerte a mosca. Considerando que o atirador pode atirar um número n qualquer de vezes, sendo X a v.a. que conta o número de acertos nos n tiros, então podemos generalizar a probabilidade P(X = x) por: n P(X = x) = px (1 – p)n – x, x x = 0, 1, 2, ..., n. Esse modelo é conhecido como modelo binomial. O modelo binomial está associado à ensaios com apenas dois resultados possíveis: sim/não; ocorre/não ocorre; 0/1. Esses ensaios quando são independentes recebem o nome de ensaios de Bernoulli. Nos ensaios de Bernoulli sempre estamos interessados em apenas um dos resultados ao qual chamaremos de sucesso. A não ocorrência de sucesso vamos chamar de fracasso. Desta forma, para o modelo binomial temos que: p = P(sucesso) e (1 – p) = P(fracasso) No exemplo do atirador ocorre sucesso quando o atirador acerta a mosca e fracasso quando ele não acerta a mosca. Uma característica do modelo binomial é que são realizados n ensaios com apenas dois resultados possíveis nos quais a probabilidade de sucesso p é sempre constante, ou seja, os ensaios são independentes. Assim sendo, definimos uma variável aleatória binomial como sendo uma variável que conta o número de sucesso num número fixo de ensaios de Bernoulli. Notação: X ∼ binomial(n, p). No exemplo do atirados temos p = 0.80 e n = 10, logo X ∼ binomial(10, 0.80). Outro exemplo: Considere a fabricação de componentes eletrônicos em que o índice de produtos com defeito é de 2.5%. Se um inspetor seleciona um lote de 80 peças para inspeção, qual a probabilidade de que: a) apenas uma seja defeituosa? b) nenhuma seja defeituosa? c) no máximo duas sejam defeituosas? d) Qual é o número esperado de peças defeituosas no lote? Vamos definir a v.a. X = número de peças defeituosas dentre as 80. Como estamos interessados nos defeito, então, p = P(defeito) = 0.025 e X ∼ binomial(80, 0.025). 80 a) P(X = 1) = ⋅(0.025)1⋅(0.975)79 = 0.2706 1 80 b) P(X = 0) = ⋅(0.025)0⋅(0.975)80 = 0.1319 0 c) P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 0.6767. d) Espera-se: 80⋅0.025 = 2 peças defeituosas no lote, ou seja, espera-se np peças com defeito. Resultado: O número esperado de sucessos em n ensaios de Bernoulli com P(sucesso) = p é dado por np. Obs: No exemplo do atirador espera-se que ele acerte 10⋅0.80 = 8 tiros na mosca. Função de probabilidade de uma v.a. contínua Para modelarmos as probabilidades associadas a uma v.a. contínua, temos de considerar que estas assumem valores em intervalos dos reias. Desta forma, o conjunto de possíveis valores que uma v.a. contínua X pode assumir é dado por A = { x ∈ ℜ: k1 ≤ x ≤ k2 }, k1 < k2. Como existem infinitos pontos no intervalo [k1, k2], não faz sentido pensarmos em calcular a probabilidade de X assumir um dado valor x ∈ A, uma vez que essa probabilidade será igual a zero. Assim, para uma v.a. contínua, P(X = x) = 0. No entanto, podemos determinar a probabilidade de X assumir um valor entre dois pontos quaisquer pertencentes a A: P(a ≤ X ≤ b) ; P(X ≤ b), P(X ≥ a), etc… Definição: Seja um função f(x) não negativa tal que a) f(x) ≥ 0, ∀ x ∈ A; +∞ b) ∫ f ( x)dx = 1; −∞ c) lim f ( x) = lim f ( x) = 0 ; x →−∞ x →+∞ b d) P(a ≤ X ≤ b) = ∫ f ( x)dx a A função f(x) é chamada de função densidade de probabilidade (f.d.p.) da v.a. X, ou simplesmente função densidade de X. e serve para descrever a distribuição de probabilidade de uma v.a. contínua. A função de probabilidade f(x) pode ser aproximada pelo histograma da v.a. X., conforme podemos observar pela figura 2. Definição: Seja um função F(x) tal que x F ( x) = P ( X ≤ x) = ∫ f ( x)dx . −∞ F(x) é chamada função de distribuição acumulada (f.d.a.) da v.a. X, ou simplesmente função de distribuição. Nota: b Da definição de f.d.p. segue-se que P(a ≤ X ≤ b) = ∫ f ( x)dx = F(b) – F(a) a Exemplo: Seja uma v.a. X com f.d.p. f(x) dada por f(x) = 2 e −k x , x ≥ 0. a) Para que valor de k, f(x) define uma f.d.p.? +∞ De +∞ ∫ f ( x)dx = ∫ 2 e −∞ dx = 1 , fazendo w = kx, segue-se que dw = kdx. 0 +∞ Portanto, −k x ∫ 2e −k x ∞ dx = 2 ∫ e 0 0 de onde se obtém: −w ( dw 2 = − e −w k k ) ∞ = 0 ( ) 2 − e − ∞ + e 0 = 1, k 2 =1 ⇒ k = 2. k b) Encontre a f.d.a. x e − 2u − 2u = 1 − e −2 x . F ( x) = ∫ 2 e du = 2 − 2 0 0 x Portanto, F ( x) = P( X ≤ x) = 1 − e − 2 x . Desta forma, podemos encontrar P(1 ≤ X ≤ 2) = F(2) – F(1), ou seja ( ) ( ) P(1 ≤ X ≤ 2) = 1 − e − 2⋅2 − 1 − e − 2⋅1 = e − 2 − e − 4 = 0.1170. Medidas associadas: a) Valor esperado ou média de uma v.a. – denotado por E(X) Se X é uma v.a. discreta, então: E ( X ) = ∑ x p ( x) x∈A ∞ Se X é uma v.a. contínua, então: E ( X ) = ∫ x f ( x)dx −∞ b) Variância de uma v.a. – denotado por Var(X) Em ambos os casos definimos variância por: ( ) Var ( X ) = E [ X − E ( X )]2 = E X 2 − [E ( X )]2 , ( )= ∑ x Em que: E X 2 2 ( )= p ( x) , ou E X x∈A 2 ∞ ∫x 2 f ( x)dx −∞ c) Exemplos: 1) Para o modelo binomial mostra-se facilmente que por E(X) = np e que Var(X) = np(1 – p). Dessa forma, no exemplo do atirador, como n = 10 e p = 0.80, E(X) = 10⋅0.80 = 8 acertos e Var(X) = 10⋅0.80⋅0.20 = 1.6. 2) No exemplo da fabricação de componenetes eletronicos, como n = 80 e p = 0.025, E(X) = 80⋅0.025 = 2 peças/lote e Var(X) = 80⋅0.025⋅0.975 = 1.95. 3) Para o exemplo da v.a. contínua, temos que: ∞ E ( X ) = ∫ x 2e −2 x ∞ dx = 2 ∫ x e −2 x dx , integrando por partes, E ( X ) = 0 0 2 ∞ 2 Ainda, E ( X ) = ∫ x 2e −2 x ∞ 1 . 2 dx = 2 ∫ x 2 e − 2 x dx , e, integrando p.partes 0 1 1 E ( X 2 ) = , logo, Var ( X ) = . 4 2 0 A distribuição de probabilidade Normal. Uma v.a. X tem distribuição normal ou Gaussiana, com parâmetros µ e σ2 se a sua f.d.p. for: f (x) = 2 1 e − ( x −µ ) σ 2π 2σ 2 , − ∞ < x < ∞ , − ∞ < µ < ∞ e σ2 > 0 . Notação: X ∼ normal(µ; σ2) ou X ∼ N(µ; σ2). As principais características da distribuição normal são: a) X tem média E(X) = µ e variância Var(X) = σ2; b) f(x) é uma função simétrica em torno de µ: f(µ – k) = f(µ + k); c) f(x) tem pontos de inflexão em (µ – σ) e (µ + σ); d) f(x) tem o conhecido formato de sino com 95% de probabilidade entre (µ – 2σ) e (µ + 2σ) (ver figura). A função de distribuição acumulada da normal não pode ser obtida, uma vez que a integral F (x) = x 1 −( w−µ )2 e ∫ σ 2π −∞ 2σ 2 dw, não tem solução algébrica. Isso dificulta um pouco as coisas, pois, nesse caso temos de recorrer à programação numérica. Um resultado importante, entretanto, vem facilitar a nossa vida. X −µ Considere uma v.a. qualquer X e seja a transformação linear Z = . σ Essa transformação padroniza a v.a. X em relação ao seu desvio padrão, além de centralizá-la na origem. Desta forma, a média e variância de Z serão E(Z) = 0 e Var(X) = 1. Resultado: Seja X uma v.a. com distribuição normal com média µ e variância σ2, então a variável Z tem normal padronizada, com média 0 e variância 1, ou seja: Z ∼ N(0; 1), e a sua f.d.p. será dada por: 1 −z2 2 f (z ) = e , − ∞ < z < ∞. 2π Nota: Por meio deste resultado, basta construirmos uma tabela de probabilidades para a distribuição normal padronizada que conseguimos as probabilidades para uma v.a. normal qualquer. Como obter probabilidades para a normal com a tabela da distr. padrão? Exemplo: Seja uma v.a. X com distribuição normal com média 220 e variância 16, ou seja, X ∼ N(220; 16). Calcular as probabilidades abaixo: a) P(X ≤ 225) X − 220 225 − 220 P(X ≤ 225) = P ≤ = P(Z ≤ 1.25) = 0.8943 4 4 b) P(210 ≤ X ≤ 228) 210 − 220 X − 220 228 − 220 P(210 ≤ X ≤ 228) = P ≤ ≤ = 4 4 4 = P(− 2.50 ≤ Z ≤ 2.00) = = P(Z ≤ 2.00 ) − P(Z ≤ −2.50) = 0.9773 – 0.0062 = 0.9711 c) Qual o valor de k tal que P(X ≤ k) = 0.01? X − 220 k − 220 P(X ≤ k) = P ≤ = 0.01, 4 4 Da tabela temos que k − 220 = −2.33 ⇒ k = 210.38 4 d) Quais os valores k1 e k2 simétricos em torno de µ, tal que P(k1 ≤ X ≤ k2) = 0.95? k − 220 k − 220 P(k1 ≤ X ≤ k2) = P 1 ≤Z≤ 2 = 0.95, 4 4 k − 220 k − 220 Da tabela temos que P Z ≤ 1 = P Z ≥ 2 = 0.025, e, 4 4 k1 − 220 = −1.96 ⇒ k1 = 212.16 4 Como k1 e k2 simétricos em torno de 0, então k 2 − 220 = 1.96 ⇒ k2 = 227.84 4 Exemplo: 2) Suponha que o nível de dureza de uma peça de espuma tenha distribuição (40; 36) . Qual a probabilidade de que: a) Um item produzido tenha dureza inferior a 28.7? b) Um item produzido tenha dureza superior a 50.5? c) A especificação para esse produto é que pelo menos 95% dos itens produzidos tenham dureza entre 28 e 52. A especificação é atendida? a) P(X < 28.7) 28.7 − 40 P(X < 28.7) = P Z < = P(Z < −1.88) = 0.0301 6 b) P(X > 50.5) 50.5 − 40 P(X > 50.5) = P Z > = 1 − P(Z < 1.75) = 0.0401 6 c) P(48 < X < 52) P(48 < X < 52) = P(− 2.0 < Z < 2.0 ) = P(Z < 2.0 ) − P(Z < −2.0 ) = 0.9773 – 0.0228 = 0.9545 3) O tempo até a falha dos televisores da marca X-View tem distribuição normal com média 35 mil horas (≈ 4 anos) e desvio padrão de 2.675 mil horas (≈ 3.7 meses). A empresa deseja fixar a garantia do produto de forma que, no máximo 5% dos televisores apresentem problemas abaixo desse limite. a) Encontre esse limite? P(X < L) = 0.05 L − 35 L − 35 P Z < ⇒ = −1.645 = 0.05 2.675 2.675 ⇒ L = 30.6 mil horas (≈ 3.5 anos) b) Os diretores da companhia traçam um plano de ação para reduzir a variabilidade do processo de produção. De quanto deve ser reduzido o desvio padrão do processo para que, mantido o limite obtido em (a), o percentual de itens abaixo do limite garantia caia pela metade? P(X < L) = 0.025 30.6 − 35 − 4.4 P Z < = −1.96 = 0.05 ⇒ σ* σ* ⇒ σ* = 2.245 mil horas (≈ 3.1 meses)