Distribuições de Probabilidade Júlio Osório Distribuições Teóricas de Probabilidades Distribuições Normais Diz-se que uma variável aleatória contínua X tem uma distribuição normal de parâmetros µ (média) e σ (desviopadrão) se a respectiva função de densidade de probabilidade for: 1 x−µ 1 − . f (x) = N(x; µ,σ ) = . e 2 σ 2π .σ 2 sendo X e µ∈]-∞, +∞[ e σ>0. • Na expressão, e é a constante que representa a base dos logaritmos naturais (e=2.71828…) e π a área de um círculo com raio unitário (π=3.14159…). 1 Distribuições Teóricas de Probabilidades Distribuições Normais A distribuição normal é a distribuição teórica de probabilidades que está na base da concepção da maioria dos métodos inferenciais estudados nesta disciplina. Muitas (mas não todas!) das características mensuráveis ocorrentes na Natureza tem uma distribuição aproximadamente normal. Foi descrita em primeiro lugar pelo matemático de origem francesa Abraham De Moivre (1667-1754) como sendo a forma limite de uma distribuiçâo binomial em que p≈q e n→∞. Vários outros matemáticos deram contributos importantes para o seu estudo, como Pierre-Simon Laplace (1749-1827) e Karl Friedrich Gauss (1777-1855). Em homenagem a este último, a distribuição normal é muitas vezes designada por distribuição de Gauss. Karl Pearson (1920) baptizou-a de “normal” para evitar “uma questão internacional de prioridades”. A curva normal tem a forma de sino e é simétrica em torno da respectiva média µ, à qual corresponde o “pico” do sino (máximo). Apresenta dois pontos de inflexão, em x=µ-σ e x=µ+σ, sendo côncava para baixo no intervalo entre estes dois valores e côncava para cima para fora deles. É assimptotótica relativamente ao eixo das abcissas, isto é f(x) nunca chega atingir um valor igual a zero. Distribuições Teóricas de Probabilidades Distribuições Normais A função de distribuição acumulada de variável aleatória normal X é definida por: 1 x −µ 1 .e−2. σ .dx 2π .σ 2 F( x ) = ∫−∞ x • A função de distribuição acumulada de uma lei normal tem uma forma sigmóide, e apresenta um ponto de inflexão e de simetria em X=µ. • F(xi) representa P(X≤≤xi) para ∀xi∈[-∞ ∞,+∞ ∞[, e corresponde graficamente à área sob a curva normal desde -∞ até à recta vertical levantada em X=xi. 2 Distribuições Teóricas de Probabilidades Distribuições Normais f ( x ) = N( x ; µ ,σ ) = 1 x −µ 1 − . . e 2 σ 2π .σ 2 Distribuições Teóricas de Probabilidades Distribuições Normais x−µ σ .dx 2 F(x) = ∫ x −∞ 1 2 π .σ .e − 1 . 2 50% 15,87% 2,28% 3 Distribuições Teóricas de Probabilidades Distribuições Normais Propriedades exactas da Distribuições Normais: • Se X é N(µ, σ), então toda e qualquer variável Y que seja uma função linear de X, isto é, tal que Y=aX+b, é também normalmente distribuída, com parâmetros : µ Y = a + bµ σ =| b | .σ Y • Dadas duas variáveis independentes normalmente distribuídas, X1 e X2, de parâmetros respectivamente iguais a (µ1, σ1) e (µ2, σ2), a variável resultante da sua soma, Y= X1 + X2 é também normalmente distribuída, com parâmetros: µ =µ +µ Y σ Y 1 = 2 σ +σ 2 2 1 2 Distribuições Teóricas de Probabilidades Distribuição NORMAL PADRONIZADA (ou REDUZIDA) A distribuição N(Z; 0, 1) denomina-se Distribuição Normal Padronizada ou Distribuição Normal Reduzida, e a tranformação X → Z : z=(x-µ)/σ recebe a designação de processo de padronização. A variável Z vem dada pelos desvios de X relativamente à média, expressos em unidades de desvio-padrão, isto é Z é X expressa em unidades de desvio reduzido. Daí o nome de Lei Normal Reduzida. As funções de densidade e de distribuição acumulada de probabilidade da Lei Normal Padronizada são: 2 f (Z) = N(z;0,1) = 1 −z .e 2 2π 2 z F( Z ) = ∫ −∞ 1 2π . z − .e 2 .dz 4 Distribuições Teóricas de Probabilidades Distribuição NORMAL PADRONIZADA (ou REDUZIDA) O gráfico de f(Z) é uma curva em forma de sino, simétrica em relação à recta vertical z=0. A média, a mediana e a moda são iguais, com valor nulo. Apenas existem tabelas para a Distribuição Normal Reduzida. Mediante a efectivação da transformação Z toda a distribuição N(X; µ, σ) pode ser convertida em N(Z; 0, 1), procedimento que torna possível a utilização das tabelas Tabelas da Lei Normal Padronizada. Distribuições Teóricas de Probabilidades Distribuição NORMAL PADRONIZADA (ou REDUZIDA) Exemplos: Supondo que a população dos diâmetros das espigas de milho resultantes de um certo cruzamento é normalmente distribuída, com µ=45 mm e σ=2.5 mm, determinar quantas espigas é de esperar, numa amostra de 500, com diâmetro superior a 46.8 mm? Utilizando Tabelas da Lei Normal em que se apresentam valores de P(z ≥ zi), ter-se-ia: 46,8 − 45 P(X > 46,8) = P(Z > ) = P(Z > 0,72) = 0,2358 2,5 Portanto, é de esperar encontrar 500 x 0.2358≈118 espigas nestas condições. 5 Distribuições Teóricas de Probabilidades Tabela da Lei NORMAL REDUZIDA P(Z>0,72)=0,2358 Distribuições de Amostragem Distribuições t de STUDENT _ t= x−µ s n A distribuição da variável t foi estabelecida por William Sealy Gosset (1876-1937), um químico inglês que trabalhava para a fábrica de cervejas Guiness em Dublin e assinava os seus trabalhos científicos com o pseudónimo Student. 6 Distribuições de Amostragem Distribuições t de STUDENT Normal- Padrão t com gl=15 t com gl=10 t com gl=5 t=0 A variável t é contínua e toma valores em ]-∞,+∞[. Existe uma distribuição diferente para cada valor de graus de liberdade (gl). As curvas do t de Student assemelham-se bastante às da lei normal reduzida, sendo também em forma de sino, e simétricas em relação à recta t=0. Á medida que gl cresce, a curva t vai-se aproximando cada vez mais da Distribuição Normal-Padrão, por tal forma que para n≥30 já se podem considerar iguais. Tabelas do t de Student P[lt(14)l ≥ 2,145]=0,05 Se entrarmos com GL=14 e probabilidade=0,05 na linha indicadora superior, encontramos na tabela o 2,145. Isto significa que a probabilidade de que, em valor absoluto, o estatístico t de Student calculado numa amostra de 15 bservações exceda o 2,145 é igual a 0,05. 7 Tabelas do t de Student α/2=0,025 1-α 0,95 α/2=0,025 t(14) -2,145 +2,145 P [-t0,025(14) < t < +t0,025(14)] = 0,95 A soma das áreas sob a curva da distribuição t de Student para 14 graus de liberdade, situadas para a esquerda da recta vertical que passa pelo valor –2,145 (extremidade esquerda da distribuição) e para a direita da recta vertical que passa pelo valor +2,145 (extremidade direita da distribuição) é igual a 0,05. Tabelas do t de Student P[t(14) ≥ 1,761]=0,05 Se entrarmos com GL=14 e probabilidade=0,05 na linha indicadora inferior, encontramos na tabela o 1,761. Isto significa que a probabilidade de que o estatístico t de Student calculado numa amostra de 15 bservações exceda o 1,761 é igual a 0,05. 8 Tabelas do t de Student 1-α 0,95 α=0,05 t(14) +1,761 P [ t ≤ t0,05(14)] = 0,95 A área sob a curva da distribuição t de Student para 14 graus de liberdade, situada para a direita da recta vertical que passa pelo valor +1,761 (extremidade direita da distribuição) é igual a 0,05. Distribuições de Amostragem Distribuições F de SNEDECOR χ / GL s /σ F = GL = χ GL / GL s /σ 2 1 1 2 2 2 2 1 2 1 2 2 2 2 Uma distribuição F de Snedecor pode ser definida como o quociente de duas variáveis χ2 independentes, sendo cada uma delas dividida pelo respectivo número de graus de liberdade. A designação de F foi proposta por George Snedecor (1881-1974) em homenagem a Ronald Fisher (18901962), que foi quem primeiro a estudou. Snedecor reformulou-a e deu-lhe a forma com que é hoje utilizada. 9 Distribuições de Amostragem GL1=1, GL2=2 GL1=2, GL2=1 GL1=5, GL2=2 GL1=100, GL2=1 GL1=100, GL2=100 A variável F é contínua e toma valores em [0,+∞[. Existe uma distribuição diferente para cada par (GL1, GL2) dos números de graus de liberdade do numerador e do denominador, respectivamente. O número de graus de liberdade associado à variável χ2 do numerador deve ser sempre indicado em primeiro lugar, seguindo-se o número de graus de liberdade associado à variável χ2 do denominador. Por conseguinte, as distribuições F individualizam-se não só pelos valores dos graus de liberdade associados a cada uma das variáveis χ2 envolvidas, como também pela ordem que lhes é fixada: a distribuição F(GL1, GL2) é distinta da distribuição F(GL2, GL1) . Tabelas do F de Snedecor P[F(5,10) ≥ 3,33]=0,05 Se entrarmos com GL1=5 na linha indicadora, GL2=10 na primeira coluna indicadora e probabilidade=0,05 na segunda coluna indicadora, encontramos na tabela que P[F(5,10)≥3,33]=0,05. Isto significa que a probabilidade de que o estatístico F calculado a partir das variâncias de amostras de tamanhos n1=6 e n2=11 observações respectivamente, exceda o valor 3,33 é igual a 0,05. 10 Tabelas do F de Snedecor α =0,05 0,95 0 3,33 F (5,10) P [F(5,10) ≤ 3,33] = 0,95 A área sob a curva da distribuição F de Snedecor para 5 graus de liberdade no numerador e 10 graus de liberdade no denominador, situada para a direita da recta vertical que passa pelo valor +3,33 (extremidade direita da distribuição) é igual a 0,05. 11