Variáveis Aleatórias
Definição:
Uma variável aleatória v.a. é uma função que associa elementos do
espaço amostral a valores numéricos, ou seja, X : Ω → A , em que A ⊆ ℜ.
Esquematicamente
As variáveis aleatórias são classificadas em dois tipos:
VA discreta: é aquela para a qual o conjunto A é um conjunto finito ou
infinito enumerável
Exs.: A = {1, 2, 3, 4, 5, 6}, A = = {0, 1, 2, 3, 4,.......∞}, etc.
VA contínua: é aquela para a qual o conjunto A é um conjunto infinito
não enumerável, ou seja, é uma v.a. que assume valores em intervalos de
números reais
Exs.: A = ℜ = (−∞,∞), A = [0,1] ⊂ ℜ , etc.
Notas: Para v.a.’s contínuas, a função que normalmente associa pontos
de Ω ao conjunto A ⊆ ℜ, é a função identidade;
Para v.a.’s discretas, a função que normalmente associa pontos
de Ω ao conjunto A ⊆ ℜ, é uma contagem ou soma.
Exemplo: Três jogadores A, B e C cobram um penalti cada um.
a) Quais os resultados possíveis?
b) Como definir uma v.a.?
c) Como associar probavilidade a essa uma v.a.?
Sejam os eventos A = o jogador A marca o penalti, B = o jogador B marca
o penalti e C = o jogador C marca o penalti
a) Ω = { ABC, ACBC, ABCC, ABCC, ACBCC, ACBCC, ABCCC, ACBCCC } é o
espaço amostral.
b) Temos pelo menos duas formas de definir uma variável aleatória
nesse caso: (i) X1 = número de gols marcados nas três cobranças ou
(ii) X2 = número de gols não marcados nas três cobranças.
Vamos considerar X = número de gols marcados nas três cobranças
X(ABC) = 3
X(ACBC) = X(ABCC) = X(ABCC) = 2
X(ACBCC) = X(ACBCC) = X(ABCCC) = 1
X(ACBCCC) = 0
• Por conveniência, vamos utilizar a notação simplificada para
representar os possíveis valores de uma v.a.:
X(ABC)
⇒X=3
X(ACBC) = X(ABCC) = X(ABCC) ⇒ X = 2
X(ACBCC) = X(ACBCC) = X(ABCCC) ⇒ X = 1
X(ACBCCC)
⇒X=0
Assim pode-se escrever:
P(X = 3) = P(ABC) = 0.6732
P(X = 2) = P(ACBC ∪ ABCC ∪ ABCC) = 0.2854
P(X = 1) = P(ACBCC ∪ ACBCC ∪ ABCCC) = 0.0396
P(X = 0) = P(ACBCCC) = 0.0018
Função de probabilidade de uma v.a. discreta
A função que associa probabilidades aos possíveis valores de uma v.a.
discreta X, é chamada de função de probabilidade discreta e é
representada por:
p(x) = P(X = x),
x ∈ A.
Propriedades:
a) 0 ≤ p(x) ≤ 1;
b) ∑ p ( x) = 1 .
x∈A
Exemplo: No exemplo dos 3 jogadores, temos A = { 0, 1, 2, 3 } e:
x
p(x)
0
0.0018
1
0.0396
2
0.2854
3
0.6732
p(x) assim definida, é uma função que associa probabilidades à v.a.
X = número de gols narcados nas 3 cobranças de penaltis.
Exemplo: Um atirador acerta a “mosca” de um alvo 80% das vezes. Se ele
realiza dez tiros,
a) Defina uma variável aleatória para esse caso.
Qual é a probabilidade de que ele acerte o alvo:
b) exatamente uma vez?
c) pelo menos uma vez?
d) no máximo três vezes?
(escreva essas probabilidades em termos da v.a.)
a) Vamos definir a v.a. X = número de acertos nos dez tiros
Desta forma temos que A = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }, ou seja
p(x) = P(X = x), em que x ∈ { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }.
b) A probabilidade de que o atirador acerte o alvo exatamente uma vez
pode ser representada por: P(X = 1).
Se o atirador acerta o alvo em 80% das vezes, então, em cada tiro ele tem
probabilidades 0.80 de acertar e 0.20 de errar.
Sendo A = acerto e E = erro e considerando que ele acerte o primeiro tiro,
temos que
A/E
A
E
E
E
E
E
E
E
E
E
prob. 0.80 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.20 0.20
tiro
1
2
3
4
5
6
7
8
9
10
Assim, a probabilidade de que ele acerte uma única vez, sendo este o
primeiro tiro é igual a: (0.80)⋅(0.20)9
Como ele pode acertar o primeiro tiro ou o segundo ou o terceiro ... ou o
décimo, então ele tem dez vezes essa probabilidade, então:
10 
P(X = 1) = 10⋅(0.80)⋅(0.20)9 =   ⋅(0.80)1⋅(0.20)9 = 4.096×10-6.
1
c) Se o atirador acerta pelo menos uma vez, então, ele pode acertar
uma vez ou duas vezes ou três vezes ... ou dez vezes, portanto, a
probabilidade de que o atirador acerte pelo menos uma vez pode
ser escrita por:
10
P(X ≥ 1) = ∑ P ( X = x) = P(X = 1) + P(X = 2) + ...+ P(X = 10).
x =1
Mas, utilizando o evento complementar, podemos escrever a
probabilidade do atirador acertar pelo menos uma como sendo um
menos a probabilidade de que ele erre todos os tiros, ou seja:
P(X ≥ 1) = 1 – P(X = 0) = 1 – (0.20)10 = 0.9999999
d) A probabilidade do atirador acertar no máximo três vezes pode ser
escrita como:
P(X ≤ 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3).
Mas:
10 
P(X = 0) =   ⋅(0.80)0⋅(0.20)10 = 1.024×10-7
0
10 
P(X = 1) =   ⋅(0.80)1⋅(0.20)9 = 4.096×10-6
1
10 
P(X = 2) =   ⋅(0.80)2⋅(0.20)8 = 7.3728×10-5
2
10 
P(X = 3) =   ⋅(0.80)3⋅(0.20)7 = 7.86432×10-4
3
Logo, P(X ≤ 3) = 8.644×10-4.
No exemplo acima podemos escrever uma fórmula geral para as
probabilidades:
10 
P(X = x) =   ⋅(0.80)x⋅(0.20)10 – x.
x
Generalizando um pouco mais, podemos pensar num atirador que
tem um índice de acertos maior ou menor do que os 80%, como por
exemplo: 95%, 70%, 40%, etc...
Como esse índice de acertos pode ser expresso como uma
proporção entre 0 e 1, podemos definir uma quantidade 0 ≤ p ≤ 1, como
sendo a probabilidade de que, num tiro, o atirador acerte a mosca.
Considerando que o atirador pode atirar um número n qualquer de
vezes, sendo X a v.a. que conta o número de acertos nos n tiros, então
podemos generalizar a probabilidade P(X = x) por:
n
P(X = x) =   px (1 – p)n – x,
 x
x = 0, 1, 2, ..., n.
Esse modelo é conhecido como modelo binomial.
O modelo binomial está associado à ensaios com apenas dois
resultados possíveis: sim/não; ocorre/não ocorre; 0/1.
Esses ensaios quando são independentes recebem o nome de
ensaios de Bernoulli.
Nos ensaios de Bernoulli sempre estamos interessados em apenas
um dos resultados ao qual chamaremos de sucesso. A não ocorrência de
sucesso vamos chamar de fracasso.
Desta forma, para o modelo binomial temos que:
p = P(sucesso) e (1 – p) = P(fracasso)
No exemplo do atirador ocorre sucesso quando o atirador acerta a
mosca e fracasso quando ele não acerta a mosca.
Uma característica do modelo binomial é que são realizados n
ensaios com apenas dois resultados possíveis nos quais a probabilidade
de sucesso p é sempre constante, ou seja, os ensaios são independentes.
Assim sendo, definimos uma variável aleatória binomial como sendo
uma variável que conta o número de sucesso num número fixo de ensaios
de Bernoulli.
Notação: X ∼ binomial(n, p).
No exemplo do atirados temos p = 0.80 e n = 10, logo
X ∼ binomial(10, 0.80).
Outro exemplo: Considere a fabricação de componentes eletrônicos em
que o índice de produtos com defeito é de 2.5%. Se um inspetor seleciona
um lote de 80 peças para inspeção, qual a probabilidade de que:
a) apenas uma seja defeituosa?
b) nenhuma seja defeituosa?
c) no máximo duas sejam defeituosas?
d) Qual é o número esperado de peças defeituosas no lote?
Vamos definir a v.a. X = número de peças defeituosas dentre as 80.
Como estamos interessados nos defeito, então, p = P(defeito) = 0.025 e
X ∼ binomial(80, 0.025).
 80 
a) P(X = 1) =   ⋅(0.025)1⋅(0.975)79 = 0.2706
1
 80 
b) P(X = 0) =   ⋅(0.025)0⋅(0.975)80 = 0.1319
0
c) P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 0.6767.
d) Espera-se: 80⋅0.025 = 2 peças defeituosas no lote, ou seja,
espera-se np peças com defeito.
Resultado: O número esperado de sucessos em n ensaios de Bernoulli
com P(sucesso) = p é dado por np.
Obs: No exemplo do atirador espera-se que ele acerte 10⋅0.80 = 8 tiros na
mosca.
Função de probabilidade de uma v.a. contínua
Para modelarmos as probabilidades associadas a uma v.a. contínua,
temos de considerar que estas assumem valores em intervalos dos reias.
Desta forma, o conjunto de possíveis valores que uma v.a. contínua
X pode assumir é dado por A = { x ∈ ℜ: k1 ≤ x ≤ k2 }, k1 < k2. Como existem
infinitos pontos no intervalo [k1, k2], não faz sentido pensarmos em
calcular a probabilidade de X assumir um dado valor x ∈ A, uma vez que
essa probabilidade será igual a zero. Assim, para uma v.a. contínua,
P(X = x) = 0.
No entanto, podemos determinar a probabilidade de X assumir um
valor entre dois pontos quaisquer pertencentes a A:
P(a ≤ X ≤ b) ; P(X ≤ b), P(X ≥ a), etc…
Definição: Seja um função f(x) não negativa tal que
a) f(x) ≥ 0, ∀ x ∈ A;
+∞
b)
∫ f ( x)dx = 1;
−∞
c) lim f ( x) = lim f ( x) = 0 ;
x →−∞
x →+∞
b
d) P(a ≤ X ≤ b) =
∫ f ( x)dx
a
A função f(x) é chamada de função densidade de probabilidade (f.d.p.)
da v.a. X, ou simplesmente função densidade de X. e serve para descrever
a distribuição de probabilidade de uma v.a. contínua.
A função de probabilidade f(x) pode ser aproximada pelo
histograma da v.a. X., conforme podemos observar pela figura 2.
Definição: Seja um função F(x) tal que
x
F ( x) = P ( X ≤ x) =
∫ f ( x)dx .
−∞
F(x) é chamada função de distribuição acumulada (f.d.a.) da
v.a. X, ou simplesmente função de distribuição.
Nota:
b
Da definição de f.d.p. segue-se que P(a ≤ X ≤ b) =
∫ f ( x)dx = F(b) – F(a)
a
Exemplo: Seja uma v.a. X com f.d.p. f(x) dada por
f(x) = 2 e −k x ,
x ≥ 0.
a) Para que valor de k, f(x) define uma f.d.p.?
+∞
De
+∞
∫ f ( x)dx = ∫ 2 e
−∞
dx = 1 , fazendo w = kx, segue-se que dw = kdx.
0
+∞
Portanto,
−k x
∫ 2e
−k x
∞
dx = 2 ∫ e
0
0
de onde se obtém:
−w
(
dw 2
= − e −w
k k
)
∞
=
0
(
)
2
− e − ∞ + e 0 = 1,
k
2
=1 ⇒ k = 2.
k
b) Encontre a f.d.a.
x
 e − 2u 
− 2u
 = 1 − e −2 x .
F ( x) = ∫ 2 e du = 2 −
2 

0
0
x
Portanto, F ( x) = P( X ≤ x) = 1 − e − 2 x .
Desta forma, podemos encontrar P(1 ≤ X ≤ 2) = F(2) – F(1), ou seja
(
) (
)
P(1 ≤ X ≤ 2) = 1 − e − 2⋅2 − 1 − e − 2⋅1 = e − 2 − e − 4 = 0.1170.
Medidas associadas:
a) Valor esperado ou média de uma v.a. – denotado por E(X)
Se X é uma v.a. discreta, então: E ( X ) =
∑ x p ( x)
x∈A
∞
Se X é uma v.a. contínua, então: E ( X ) =
∫ x f ( x)dx
−∞
b) Variância de uma v.a. – denotado por Var(X)
Em ambos os casos definimos variância por:
( )
Var ( X ) = E [ X − E ( X )]2 = E X 2 − [E ( X )]2 ,
( )= ∑ x
Em que: E X
2
2
( )=
p ( x) , ou E X
x∈A
2
∞
∫x
2
f ( x)dx
−∞
c) Exemplos:
1) Para o modelo binomial mostra-se facilmente que por E(X) = np e
que Var(X) = np(1 – p).
Dessa forma, no exemplo do atirador, como n = 10 e p = 0.80,
E(X) = 10⋅0.80 = 8 acertos e Var(X) = 10⋅0.80⋅0.20 = 1.6.
2) No exemplo da fabricação de componenetes eletronicos, como
n = 80 e p = 0.025,
E(X) = 80⋅0.025 = 2 peças/lote e Var(X) = 80⋅0.025⋅0.975 = 1.95.
3) Para o exemplo da v.a. contínua, temos que:
∞
E ( X ) = ∫ x 2e
−2 x
∞
dx = 2 ∫ x e −2 x dx , integrando por partes, E ( X ) =
0
0
2
∞
2
Ainda, E ( X ) = ∫ x 2e
−2 x
∞
1
.
2
dx = 2 ∫ x 2 e − 2 x dx , e, integrando p.partes
0
1
1
E ( X 2 ) = , logo, Var ( X ) = .
4
2
0
A distribuição de probabilidade Normal.
Uma v.a. X tem distribuição normal ou Gaussiana, com parâmetros µ
e σ2 se a sua f.d.p. for:
f (x) =
2
1
e − ( x −µ )
σ 2π
2σ 2
,
− ∞ < x < ∞ , − ∞ < µ < ∞ e σ2 > 0 .
Notação: X ∼ normal(µ; σ2) ou X ∼ N(µ; σ2).
As principais características da distribuição normal são:
a) X tem média E(X) = µ e variância Var(X) = σ2;
b) f(x) é uma função simétrica em torno de µ: f(µ – k) = f(µ + k);
c) f(x) tem pontos de inflexão em (µ – σ) e (µ + σ);
d) f(x) tem o conhecido formato de sino com 95% de probabilidade
entre (µ – 2σ) e (µ + 2σ) (ver figura).
A função de distribuição acumulada da normal não pode ser obtida, uma
vez que a integral
F (x) =
x
1
−( w−µ )2
e
∫ σ 2π
−∞
2σ 2
dw, não tem solução algébrica.
Isso dificulta um pouco as coisas, pois, nesse caso temos de recorrer à
programação numérica.
Um resultado importante, entretanto, vem facilitar a nossa vida.
X −µ
Considere uma v.a. qualquer X e seja a transformação linear Z =
.
σ
Essa transformação padroniza a v.a. X em relação ao seu desvio padrão,
além de centralizá-la na origem.
Desta forma, a média e variância de Z serão E(Z) = 0 e Var(X) = 1.
Resultado: Seja X uma v.a. com distribuição normal com média µ e
variância σ2, então a variável Z tem normal padronizada, com média 0 e
variância 1, ou seja:
Z ∼ N(0; 1),
e a sua f.d.p. será dada por:
1 −z2 2
f (z ) =
e
,
− ∞ < z < ∞.
2π
Nota: Por meio deste resultado, basta construirmos uma tabela de
probabilidades para a distribuição normal padronizada que conseguimos
as probabilidades para uma v.a. normal qualquer.
Como obter probabilidades para a normal com a tabela da distr. padrão?
Exemplo: Seja uma v.a. X com distribuição normal com média 220 e
variância 16, ou seja, X ∼ N(220; 16). Calcular as probabilidades abaixo:
a) P(X ≤ 225)
 X − 220 225 − 220 
P(X ≤ 225) = P
≤
 = P(Z ≤ 1.25) = 0.8943
4
4


b) P(210 ≤ X ≤ 228)
 210 − 220 X − 220 228 − 220 
P(210 ≤ X ≤ 228) = P
≤
≤
=
4
4
4


= P(− 2.50 ≤ Z ≤ 2.00) =
= P(Z ≤ 2.00 ) − P(Z ≤ −2.50) = 0.9773 – 0.0062 = 0.9711
c) Qual o valor de k tal que P(X ≤ k) = 0.01?
 X − 220 k − 220 
P(X ≤ k) = P
≤
 = 0.01,
4
4 

Da tabela temos que
k − 220
= −2.33 ⇒ k = 210.38
4
d) Quais os valores k1 e k2 simétricos em torno de µ, tal que
P(k1 ≤ X ≤ k2) = 0.95?
k − 220 
 k − 220
P(k1 ≤ X ≤ k2) = P 1
≤Z≤ 2
 = 0.95,
4
4


k − 220 
k − 220 


Da tabela temos que P Z ≤ 1
 = P Z ≥ 2
 = 0.025, e,
4 
4



k1 − 220
= −1.96 ⇒ k1 = 212.16
4
Como k1 e k2 simétricos em torno de 0, então
k 2 − 220
= 1.96 ⇒ k2 = 227.84
4
Exemplo: 2) Suponha que o nível de dureza de uma peça de espuma
tenha distribuição (40; 36) . Qual a probabilidade de que:
a) Um item produzido tenha dureza inferior a 28.7?
b) Um item produzido tenha dureza superior a 50.5?
c) A especificação para esse produto é que pelo menos 95% dos
itens produzidos tenham dureza entre 28 e 52. A especificação é
atendida?
a) P(X < 28.7)
28.7 − 40 

P(X < 28.7) = P Z <
 = P(Z < −1.88) = 0.0301
6


b) P(X > 50.5)
50.5 − 40 

P(X > 50.5) = P Z >
 = 1 − P(Z < 1.75) = 0.0401
6


c) P(48 < X < 52)
P(48 < X < 52) = P(− 2.0 < Z < 2.0 ) = P(Z < 2.0 ) − P(Z < −2.0 )
= 0.9773 – 0.0228 = 0.9545
3) O tempo até a falha dos televisores da marca X-View tem distribuição
normal com média 35 mil horas (≈ 4 anos) e desvio padrão de 2.675 mil
horas (≈ 3.7 meses). A empresa deseja fixar a garantia do produto de
forma que, no máximo 5% dos televisores apresentem problemas abaixo
desse limite.
a) Encontre esse limite?
P(X < L) = 0.05
L − 35 
L − 35

P Z <
⇒
= −1.645
 = 0.05
2.675 
2.675

⇒ L = 30.6 mil horas (≈ 3.5 anos)
b) Os diretores da companhia traçam um plano de ação para
reduzir a variabilidade do processo de produção. De quanto deve ser
reduzido o desvio padrão do processo para que, mantido o limite obtido
em (a), o percentual de itens abaixo do limite garantia caia pela metade?
P(X < L) = 0.025
30.6 − 35 
− 4.4

P Z <
= −1.96
 = 0.05 ⇒
σ* 
σ*

⇒ σ* = 2.245 mil horas (≈ 3.1 meses)