Probabilidade O que é probabilidade ? • Experimento aleatório: é um experimento no qual podemos descrever o conjunto de todos os resultados possíveis, mas não podemos dizer, a priori, qual desses resultados vai acontecer. • Espaço Amostral (Ω): é o conjunto de todos os possíveis resultados do aleatório. • Evento (A, B, C, etc): é um subconjunto do espaço amostral. O que é probabilidade ? • Seja Ω um espaço amostral finito uniforme e seja A um evento qualquer desse espaço. A probabilidade de A, denotada por P(A), é dada por: P( A) # ( A) # () • onde #Ω é o número de resultados possíveis do experimento e #A é o número de resultados favoráveis à ocorrência do evento A. É claro que 0 P( A) 1 Conceito de Frequência de Probabilidade • Suponha que o experimento foi repetido n vezes, sempre sob as mesmas condições, e que o evento A ocorreu m vezes entre essas n realizações do experimento. Então, a fração m/n é uma boa aproximação para a probabilidade de A, se o numero de n de repetições for bastante grande: m P ( A) n Propriedades básicas da probabilidade a) P(Ω)=1 : Probabilidade de ocorrência de um evento certo. b) P(Ø) = 0 : Probabilidade de ocorrência de um evento impossível. c) Se o evento A e B são mutuamente excludente: P (A ou B) = P(A)+P(B) d) Se A e B podem ocorrer simultaneamente : P (A ou B) = P(A) + P(B) – P(A e B) e) P(Ac )=1-P(A) Variáveis Aleatórias Conceitos • Uma variável aleatória (v.a) é uma função que associa cada elemento de um espaço amostral a uma número real. – Variáveis aleatórias discreta: Os valores que ela pode assumir pertencem a um conjunto enumerável E de números reais – Variáveis aleatórias contínua: Para que a probabilidade de ela pertencer a um conjunto de números reais seja estritamente positiva, esse conjunto deve conter dentro de si um intervalo Exemplos 1) Experimento : jogar 1 dado Variável Aleatória: X = “ o dobro do número obtido menos 1” X : {1, 2, 3, 4, 5, 6} {1, 3, 5, 7, 9, 11} 2) Experimento : jogar 4 moedas (C: Cara e K: Coroa) Variável Aleatória: Y = “ números de caras obtidas” Y : {CCCC, CKCC, ..., KKKK} {0, 1, 2, 3, 4} Função Densidade Probabilidade Ex. 1 Dado x 1 3 5 7 9 11 Ex. 2 Moeda P(x) 1/6 1/6 1/6 1/6 1/6 1/6 y 0 1 2 3 4 P(y) 1/6 4/6 6/16 4/16 1/16 Caso Discreto • A função de probabilidade p corresponde à variável aleatória discreta X associada a cada número real x a probabilidade de que a variável X assuma aquele valor x. x→p(x) = P[X=x] • A função de distribuição acumulada F corresponde à variável aleatória discreta X é definida por F(x)=P[X≤x], para todo x real. Medidas de Centralizada e de Dispersão • Média ou Esperança de uma variável aleatória discreta – Se X é uma variável aleatória discreta que assume os valores x1, x2, x3, ...,xN, com probabilidade p(x1), p(x2), p(x3), ...,p(xN) respectivamente, então sua média ou esperança é: E(A)= x1 p(x1) + x2p(x2) + x3p(x3)+ ... + xN p(xN) Medidas de Centralizada e de Dispersão • Variância de uma variável aleatória discreta – Se X é uma variável aleatória discreta que assume os valores x1, x2, x3, ...,xN, com probabilidade p(x1), p(x2), p(x3), ...,p(xN) respectivamente, então a variancia é calculada por: Var (X)= (x1 – E(X))2.p(x1) + (x2 – E(X))2.p(x2) + ... + + (xN – E(X))2.p(xN) • Desvio padrão de uma variável aleatória discreta – DP( X ) Var( X ) Medidas de Centralizada e de Dispersão • Coeficiente de variação de uma variável aleatória discreta e igual ao quociente entre o desvio-padrão e a média CV(X)=DP(X)/EX Exemplos • Em um determinado condomínio residencial: 30% das famílias não tem filhos, 40% tem um filho, 20% têm dois filhos e 10 têm mais de três filhos X 0 1 2 3 P(x)=P(X=x) 0,3 0,4 0,2 0,1 F(x)=P(X≤x) 0,3 0,7 0,9 1,0 Distribuições Comuns de Variáveis Aleatórias Discretas 1. 2. 3. 4. 5. 6. Constante Uniforme Bernoulli Binomial Geometrica Poisson Variável Aleatória Constante • fdp 1.0 c • FDC 1.0 c Distribuição Discreta Uniforme • A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n • fdp • FDC: 1 / n, se xi X p X ( xi ) 0, caso contrário t t F (t ) p X (i) n i 1 Variável de Bernoulli – V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária X é chamada variável de Bernoulli tal que: –Função de massa de probabilidade: p P( X 1) q 1 p P( X 0) Distribuição de Bernoulli • FDC 0 p+q=1 q 0.0 1.0 x Binomial • • • • • A v.a. X representa o número de sucessos em uma sequência de experimentos de Bernoulli. Todos experimentos são independentes. Cada resultado é um “sucesso” ou “falha”. A probabilidade de sucesso de um experimento é dado por p. A probabilidade de uma falha é 1- p. Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro. Distribuição Binomial A distribuição binomial com parâmetros n ≥ 0 e 0 < p < 1, é n x n x p( x) p (1 p) x A média e variância da binomial são: np 2 np(1 p) V.A. Binomial: fdp pk 1 2 3 4 5 6 7 8 9 10 2,86102E-05 0,000386238 0,003089905 0,016222 0,0583992 0,145998001 0,250282288 0,281567574 0,187711716 0,056313515 DISTRBINOM (núm_s;tentativas;probabilidade_s; cumulativo) V.A. Binomial: FDC 1.2 1 2 3 4 5 6 7 8 9 10 1 CDF 0.8 0.6 0.4 2,86102E-05 0,000386238 0,003089905 0,016222 0,0583992 0,145998001 0,250282288 0,281567574 0,187711716 0,056313515 2,86102E-05 0,000414848 0,003504753 0,019726753 0,078125954 0,224123955 0,474406242 0,755973816 0,943685532 0,999999046 0.2 0 0 1 2 3 4 5 x 6 7 8 9 10 Exemplo • Um sistema de segurança consiste em 4 alarmes (idênticos) de pressão alta, com probabilidade de sucesso p = 0,8 (cada um). Qual a probabilidade de se ter exatamente 3 alarmes soando quando a pressão atingir o valor limite ? S1 S2 S3 F4 S1 S2 F3 S4 S1 F2 S3 S4 F1 S2 S3 S4 0,8 0,8 0,8 0,2 x x x x 0,8 0,8 0,2 0,8 x x x x P(3) = 4 x (0,8)3 x (1 - 0,8) 1 = 0,4096 0,8 0,2 0,8 0,8 x x x x 0,2 = 0,8 = 0,8 = 0,8 = 0,1024 0,1024 0,1024 0,1024 Distribuição de Poisson • Número de eventos independentes que ocorrem em um intervalo de tempo • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno • Se X = Binomial(n,p), X Poisson( = np) Poisson: propriedades • Considere que um servidor espera receber 100 transações em um minuto: – = 100 (constante) • Espera-se que: – O início de cada transação seja independente dos outros; – Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar seja t – A probabilidade de chegar duas transações ao mesmo tempo seja zero! • O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o número de transações que chegam durante um período t. VA Poisson: Aplicacao • A V.A. de Poisson é boa para modelar vários fenômenos, como o número de transações que chegam a um servidor em uma hora, ou o número de queries que chegam a uma máquina de busca em 1 minuto ou número de pacotes que chegam num roteador em 1 segundo. • Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele Distribuição de Poisson • Função de densidade de probabilidade (fdp): pk PN (t ) k e t (t ) k k! • FDC: ( t ) F x e k 0 k! x t k Poisson • Uma v.a. de Poisson X tem sua fdp: P( X x) x x! e Onde > 0 é uma constante E(X)= Var(X) = x 0,1, 2,... Exercícios 1. Considere que o número de mails que chegam a um servidor de mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t. Calcule a seguintes probabilidades: – Exatamente três mensagens chegarão num intervalo de 10 seg. – No máximo 20 msgs chegarão num período de 20 seg. – O número de msgs num intervalo de 5 seg está entre 3 e 7 mails. 2. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries? Solução P( X x) 1) P( Xt k ) 2) P(X10 = 3) = 0.224 3) P(X20 20) = 0.973 4) x x! e x 0,1, 2,... k (0.3t ) 0.3t e k! ( t ) F x e k 0 k! x t 7 k k (1.5) ( 1.5) P(3 X 5 7) e 0.1909 k! k 3 Solução • 2) 1000 4 i (10 ) (1 104 )1000 i P(# erros 3) 4 i 1000 1000 4 i (10 ) (1 104 )1000 i 3.825*106 P(# erros 3) 1 0 i 3 n x p( x) p (1 p)n x x Distribuições de Variáveis Aleatórias Contínuas • • • • • • Normal Exponencial Weibull Lognormal Pareto .... Distribuições de Variáveis Aleatórias Contínuas • Variáveis aleatórias contínuas – Assumem um intervalo infinito de diferentes valores – W=% percentual de crescimento do PIB em 2005 – V=tempo para retornar a resposta de um “query” – Valores específicos-particulares de uma v.a. contínua tem probabilidade 0 – Intervalos de valores tem probabilidade 0 Distribuição Normal (Gaussiana) • Distribuição mais comum na análise de dados • fdp é: ( x )2 1 f ( x) e 2 • -x + • Média é , desvio padrão 2 2 Distribuição Normal • • • • “Em forma de Sino” Unimodal Simétrica Média, mediana e moda são iguais • Assintótica em relação ao Eixo X • Amplitude Interquartil é 1,33 50% f(X) Q1 Q3 Média, Mediana Moda X Notação para Distribuições Gaussianas • Geralmente denotada N(,) • Normal unitária é N(0,1) • Se x tem N(,), x tem N(0,1) • O -quantil de uma normal unitária z ~ N(0,1) é denotado por z tal que P( x ) z P( x ) z Normal • Função de densidade para =0, =1 0.45 0.4 0.35 f(x) 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 -6E-14 x 1 2 3 4 5 Normal • Função de densidade para =1 0.45 =2 0.4 0.35 0.3 0.25 0.2 0.15 =5 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Normal • Funções de densidade para =1 0.45 0.4 =1 =2 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Distribuição Exponencial • Quantidade de tempo até que determinado evento ocorra f X x e - λx FX x 1 e λx for x 0 for x 0 = taxa de chegadas 1/ = tempo médio entre chegadas Exemplo: v.a. exponencial • fdp: • FDC: f ( x ) e x ,x 0 F ( x ) 1 e x f(x) fdp x • V.A. muito frequentemente usada em computação • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor Distribuição de Probabilidades Exponencial T: valores da variável aleatória contínua = intervalo entre chegadas, com e = 2,71828 P(intervalo entre chegadas < t)= 1- e-t : taxa média de chegadas 1/ : intervalo médio entre chegadas 44 Distribuição de Probabilidades Exponencial Exemplos: – Carros chegando num pedágio; – Clientes chegando num caixa eletrônico – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor Distribuição de Probabilidades Exponencial • Usada para estudos de Sistemas de Filas • Função densidade de probabilidade f x • Parâmetros 1 46 1 e x 1 Distribuição de Probabilidades Exponencial f(x) Lambda = 3,0 (Média = 0,333) Lambda = 2,0 (Média = 0,5) Lambda = 1,0 (Média = 1,0) Lambda = 0,50 (Média = 2,0) 47 Valores of X Exemplo Ex.: Operários chegam no almoxarifado a uma taxa de 30/h. Qual é a probabilidade do intervalo entre chegadas consecutivas de Operários ser maior que 5’ ? = 30 e intervalo = 5/60 = 0,0833 horas P(intervalo entre chegadas > t) = 1 – P(intervalo entre chegadas t) = 1 – (1 – e-30.0,0833) = 0,0821 48 Distribuição log normal ln( x ) 1 f ( x; , ) 2 x e 0 2 ( 2 2 ) x0 x0 Muito utilizada para modelar duração de sessão de usuários em serviços web Média e Variância A média e variância de uma va X que tem uma distribuição lognormal são: E( X ) e 2 / 2 V (X ) e 2 2 e 1 2