ME414 e ME203 : ESTATÍSTICA PARA EXPERIMENTALISTAS Solução da 1a Lista de Exercı́cios - Estatı́stica Descritiva II-2012 11 de Setembro de 2012 1. (2,0) Identifique cada uma das variáveis seguintes como quantitativa, qualitativa e como contı́nua, discreta, nominal, ordinal. • (0,25) A concentração de impurezas em uma amostra de leite, em mg por litro Variável quantitativa contı́nua. • (0,25) A procedência de cada candidato ao vestibular da Unicamp em certo ano Variável qualitativa nominal. • (0,25) O tempo de reação de um indivı́duo após submetido a certo estı́mulo Variável quantitativa contı́nua. • (0,25) A resposta de um indivı́duo à questão: Variável qualitativa ordinal “É natural que pessoas de uma determinada raça queiram viver longe de pessoas de outras raças.” Concordo Plenamente Concordo Indeciso Discordo Discordo Plenamente • (0,25) O número de moradores em cada residência de uma cidade Variável quantitativa discreta. • (0,25) A temperatura (em o C) de certa região, em determinada época do ano Variável quantitativa contı́nua. • (0,25) A temperatura (em o F) de certa região, em determinada época do ano Variável quantitativa contı́nua. 1 • (0,25) A produção por hectare de determinado tipo de grão Variável quantitativa contı́nua. 2 2. (2,00) Em um estudo sobre contusões causadas durante a prática de esportes, 25 escolas de um estado brasileiro foram selecionadas, ao acaso, e entrevistadas. Foram coletados os dados abaixo, sobre o número de contusões classificadas como graves em atletas so sexo masculino para duas modalidades de esporte: 1 3 2 2 5 Basquete 2 4 4 3 2 4 4 3 5 4 3 6 6 4 6 1 2 1 6 5 7 5 3 5 5 Futebol 7 7 6 6 1 7 3 2 7 1 7 4 7 6 3 1 2 5 1 2 a. (0,4) Construa uma distribuição de freqüências para as 50 observações. Classes número de contusões 1 2 3 4 5 6 7 Total Frequência absoluta ni 7 8 7 7 7 7 7 50 Frequência relativa fi 0,14 0,16 0,14 0,14 0,14 0,14 0,14 1,00 Porcentagem % 100fi 14,00 16,00 14,00 14,00 14,00 14,00 14,00 100,00 Tabela 1: Tabela de frequências para a variável discreta numero de contusões. 3 b. (0,4) Construa uma distribuição de freqüências para cada modalidade. Classes número de contusões basquete 1 2 3 4 5 6 7 Total Frequência absoluta ni 1 4 5 6 5 3 1 25 Frequência relativa fi 0,04 0,16 0,20 0,24 0,20 0,12 0,04 1,00 Porcentagem % 100fi 4,00 16,00 20,00 24,00 20,00 12,00 4,00 100,00 Tabela 2: Tabela de frequências para a variável discreta numero de contusões no basquete. Classes número de contusões futebol 1 2 3 4 5 6 7 Total Frequência absoluta ni 6 4 2 1 2 4 6 25 Frequência relativa fi 0,24 0,16 0,08 0,04 0,08 0,16 0,24 1,00 Porcentagem % 100fi 24,00 16,00 8,00 4,00 8,00 16,00 24,00 100,00 Tabela 3: Tabela de frequências para a variável discreta numero de contusões no futebol. c. (0,4) Calcule as medidas de tendência central e variabilidade adequadas para cada modalidade. moda (mo) é a realização mais frequente • Da tabela 2 para a variável contusões em basquete mo(basquete) = 4 (1) Então, cada uma das 6 escolas tiveram 4 contusões que foram classificadas como graves na pratica no basquete 4 • Da tabela 3 para a variável contusões no futebol. mo(f utebol) = 1e7 (2) Então é bimodal, cada uma das 6 escolas tiveram 1 contusão que foi classificada como grave e também, cada uma das 6 escolas tiveram 7 contusões que foram classificada como grave na pratica no no futebol. mediana (md) é a realização que ocupa a posição central da serie de observações. Precisamos que as observações estejam ordenadas, estatı́stica de ordem. Para calcular a mediana usamos a equação md(X) = , X( n+1 2 ) se n ı́mpar X( n2 ) +X( n2 +1) 2 , se n par Temos que o numero de observações são 25, então n é ı́mpar • md(basquete) = X( 25+1 ) = X(13) = 4 2 (3) A mediana nos diz que temos 4 contusões graves no esporte basquete • md(f utebol) = X( 25+1 ) = X(13) = 4 2 (4) A mediana nos diz que temos 4 contusões graves no esporte futebol Média aritmética, x̄. Para calcular a média usamos a equação x̄ = k X fi xi i=1 • Para o caso do basquete, k = 7 e as frequências relativas estão na tabela 2 x̄ = (0, 04) ∗ 1 + (0, 16) ∗ 2 + (0, 20) ∗ 3 + (0, 24) ∗ 4 + (0, 20) ∗ 5 + (0, 12) ∗ 6 + (0, 04) ∗ 7 = 3, 92 (5) A média nos diz que temos 3,92 contusões graves no esporte basquete 5 • Para o caso do futebol, k = 7 e as frequências relativas estão na tabela 3 x̄ = (0, 24) ∗ 1 + (0, 16) ∗ 2 + (0, 08) ∗ 3 + (0, 04) ∗ 4 + (0, 08) ∗ 5 + (0, 16) ∗ 6 + (0, 24) ∗ 7 = 4 (6) A média nos diz que temos 4 contusões graves no esporte futebol Desvio médio, dm(X), a variância var(X) e desvio padrão dp(X) Calculemos variabilidade do conjunto de observações em relação á media das observações dm(X) = k X fi |xi − x̄| i=1 var(X) = dp(X) = k X fi (xi − x̄)2 i=1 p var(x) • Para o caso do basquete, k = 7, as frequências relativas estão na tabela 2 e x̄ = 3, 92 dm(X) = (0, 04) ∗ |1 − 3, 92| + (0, 16) ∗ |2 − 3, 92| + (0, 20) ∗ |3 − 3, 92| + (0, 24) ∗ |4 − 3, 92| + (0, 20) ∗ +(0, 12) ∗ |6 − 3, 92| + (0, 04) ∗ |7 − 3, 92| = 1, 22 var(X) = (0, 04) ∗ (1 − 3, 92)2 + (0, 16) ∗ (2 − 3, 92)2 + (0, 20) ∗ (3 − 3, 92)2 +(0, 24) ∗ (4 − 3, 92)2 + (0, 20) ∗ (5 − 3, 92)2 + (0, 12) ∗ (6 − 3, 92)2 dp(X) = +(0, 04) ∗ (7 − 3, 92)2 = 2, 23 p var(X) = 1, 5 • Para o caso do futebol, k = 7, as frequências relativas estão na tabela 3 e x̄ = 4, 0 dm(X) = (0, 24) ∗ |1 − 4| + (0, 16) ∗ |2 − 4| + (0, 08) ∗ |3 − 4| + (0, 04) ∗ |4 − 4| + (0, 08) ∗ |5 − 4| +(0, 16) ∗ |6 − 4| + (0, 24) ∗ |7 − 4| = 2, 24 var(X) dp(X) = 2 2 (10) 2 (0, 24) ∗ (1 − 4) + (0, 16) ∗ (2 − 4) + (0, 08) ∗ (3 − 4) + (0, 04) ∗ (4 − 4) +(0, 08) ∗ (5 − 4)2 + (0, 16) ∗ (6 − 4)2 + (0, 24) ∗ (7 − 4)2 = 5, 76 p = var(X) = 2, 4 6 2 (11) (12) basquete futebol mo(X) 4 1e7 md(X) 4 4 x̄ 3,92 4 dm(X) 1,22 2,24 var(X) 2,23 5,76 dp(X) 1,5 2,4 Tabela 4: Tabela resumo das medidas de posição e a medidas de dispersão. 7 d. (0,4) Represente gráficamente cada uma das distribuições. Figura 1: Gráfico em barras para a variável número de contusões em na pratica basquete e futebol Figura 2: Gráfico em barras para a variável número de contusões em basquete 8 Figura 3: Gráfico em barras para a variável número de contusões em futebol 9 e. (0,4) Comente os resultados encontrados. A variável basquete é uma variável que tem distribuição simétrica ( distribuição gaussiana) que a variável futebol. Isto se pode observar da figura [2]. As medidas de posição e as medias de dispersão na tabela 4 são próximas para a variável basquete o que não acontece para o caso da variável futebol pois a moda e a media são diferentes. 10 3. (2,0) Os dados abaixo referem-se 53,0 70,2 84,3 69,5 77,8 53,4 82,5 67,3 54,1 70,5 95,4 51,1 74,4 55,7 63,5 53,5 64,3 82,7 78,5 55,7 72,3 59,5 55,3 73,0 52,4 a dureza de 30 peças de alumı́nio: 87,5 71,4 85,8 69,1 50,7 a. (0,4) Faça uma tabela de distribuição de freqüências. Para construir a tabela de frequências vamos a considerar que temos 5 classes. Para calcular a amplitude do intervalo vamos a considerar o valor menor e o valor maior da dureza, ∆i = Classes Dureza 51, 10 ` 59, 96 59, 96 ` 68, 82 68, 82 ` 77, 68 77, 68 ` 86, 54 86, 54 ` 95, 40 Total 95, 4 − 51, 1 = 8, 86. 5 Frequência absoluta ni 11 3 8 6 2 30 Frequência relativa fi 0,367 0,100 0,267 0,200 0,066 1,00 (13) Porcentagem % 100fi 36,70 10,00 26,70 20,00 6,60 100,00 Tabela 5: Tabela de distribuição de frequências para a variável dureza. b. (0,4) Faça uma representação gráfica para a distribuição de freqüências. O histograma é um gráfico de barras contiguas. Como a área de cada retângulo é fi , a altura deve ser fi /∆i , ver coluna 5 na tabela 6 11 Classes Dureza 51, 10 ` 59, 96 59, 96 ` 68, 82 68, 82 ` 77, 68 77, 68 ` 86, 54 86, 54 ` 95, 40 Total Frequência absoluta ni 11 3 8 6 2 30 Frequência relativa fi 0,367 0,100 0,267 0,200 0,066 1,00 Porcentagem % 100fi 36,70 10,00 26,70 20,00 6,60 100,00 Densidade de frequência fi /∆i 0,041 0,011 0,030 0.023 0.007 − Tabela 6: Tabela de distribuição de frequências para a variável dureza e com densidade de frequência Figura 4: Histograma da variável dureza 12 c. (0,4) Calcule a média, mediana, moda e o desvı́o padrão. Como a variável dureza é continua vamos a supor que todos os valores dentro de uma classe têm seus valores iguais ao ponto médio desta classe. Ver coluna 6 na tabela 7 Classes Dureza 51, 10 ` 59, 96 59, 96 ` 68, 82 68, 82 ` 77, 68 77, 68 ` 86, 54 86, 54 ` 95, 40 Total Frequência absoluta ni 11 3 8 6 2 30 Frequência relativa fi 0,367 0,100 0,267 0,200 0,066 1,00 Porcentagem % 100fi 36,70 10,00 26,70 20,00 6,60 100,00 Densidade de frequência fi /∆i 0,041 0,011 0,030 0.023 0.007 − Ponto medio si 55,53 64,39 73,25 82,11 90,97 − Tabela 7: Tabela de distribuição de frequências para a variável dureza e com densidade de frequência • media x̄ ' 0, 367 ∗ 55, 53 + 0, 1 ∗ 64, 39 + 0, 267 ∗ 73, 25 + 0, 2 ∗ 82, 11 + 0, 066 ∗ 90, 97 = 68.8 (14) • mediana, n = 30 md(X) = X( 30 + X( 30 2 ) 2 +1) 2 ' 73, 25 (15) (16) • moda, mo = 55, 53 (17) • Desvio padrão, var(x) ' dp(x) = 0, 367 ∗ (55, 53 − 68.8)2 + 0, 1 ∗ (64, 39 − 68.8)2 + 0, 267 ∗ (73, 25 − 68.8)2 +0, 2 ∗ (82, 11 − 68.8)2 + 0, 066 ∗ (90, 97 − 68.8)2 = 139.729 p var(x) = 11, 82 d. (0,4) Faça um ramo-e-folhas, um esquema de cinco números e um box plot. Para fazer uma Ramo-e-folhas vamos optar por truncar cada valor, omitindo os décimos: 13 (18) (19) 5 6 7 8 9 0 3 0 2 5 1 4 0 2 2 7 1 4 3 9 2 5 3 9 3 7 14 3 4 5 4 7 8 5 5 9 Para fazer o esquema de cinco números precisamos calcular o primeiro quartil, q1 = q(0, 25) o segundo quartil, q2 = q(0, 50) e o terceiro quartil, q3 = q(0, 75). O primeiro quartil, q1 = q(0, 25), então precisamos deixar o 25% dos dados na esquerda. Olhemos no histograma que esta na figura (4) e vemos que temos que parar na primeira barra: 59, 96 − 51, 1 36, 70% q1 q1 q1 − 51, 1 25% 25 8, 86 + 51, 51 = 36, 70 = 57, 14 = (20) (21) (22) Para calcular o segundo quartil, q2 = q(0, 5), então precisamos deixar o 50% dos dados na esquerda. Olhemos no histograma que esta na figura (4) e vemos que temos que parar na terceira barra pois ate essa barra temos o 73, 4%: 77, 68 − 68, 82 26, 70% = q2 − 68, 82 3, 3% (23) O valor de 3, 3% e devido a que somente precisamos o 3, 3% na terceira barra para completar o 50% q2 = q2 = 3, 3 8, 86 + 68, 82 26, 70 69, 91 (24) (25) Para calcular o terceiro quartil, q3 = q(0, 75), então precisamos deixar o 75% dos dados na esquerda. Olhemos no histograma que esta na figura (4) e vemos que temos que parar na quarta barra pois ate essa barra temos o 94, 4%: 86, 54 − 77, 6 20, 00% = q3 − 77, 6 1, 6% (26) O valor de 1, 6% e devido a que somente precisamos o 1, 6% na quarta barra para completar o 75% q3 = q3 = 1, 6 8, 86 + 77, 6 20, 00 78, 31 15 (27) (28) 30 69,91 md q E 57,14 51,1 78,31 95,4 16 Para fazer o blox plot precisamos calcular a distancia interquartil , dq , e o limite inferior, Li e o limite superior, Ls : dq = q3 − q1 = 78, 31 − 57, 14 = 21, 17 (29) Li = q1 − (1, 5) ∗ dq = 57, 14 − (1, 5) ∗ 21, 17 = 25, 38 (30) Ls = q3 + (1, 5) ∗ dq = 78, 31 + (1, 5) ∗ 21, 17 = 110, 06 (31) Figura 5: Histograma e. (0,4) A distribuição é normal (“forma de sino”)? Comente. 17 4. (2,0)Considere a altura (em indivı́duo 1 2 altura 67,75 72,27 iindivı́duo 6 7 altura 74,25 69,75 indivı́duo 11 12 altura 74,5 76 indivı́duo 16 17 altura 66 71 polegadas) de 20 indivı́duos 3 4 5 66,25 72,25 71,25 8 9 10 72,5 74 73,5 13 14 15 69,5 71,25 69,5 18 19 20 71 67,75 73,5 Considere os seguintes intervalos para as realizações da variável altura Intervalo altura 1 66 ` 68 2 68 ` 70 3 70 ` 72 4 72 ` 74 5 74 ` 76 a. (0,4) Faça uma tabela de distribuição de freqüências. Classes altura 66 ` 68 68 ` 70 70 ` 72 72 ` 74 74 ` 76 76 ` 78 Total Ponto médio si 67 69 71 73 75 77 - Frequência absoluta ni 4 3 4 5 3 1 20 Frequência relativa fi 0,20 0,15 0,20 0,25 0,15 0,05 1,00 Porcentagem % 100fi 20,00 15,00 20,00 25,00 15,00 5,00 100,00 Densidade frequência fi /∆i 0,1 0,075 0,1 0,125 0,075 0,025 - Tabela 8: Tabela de frequências para variável altura. 18 b. (0,4) Faça uma representação gráfica para a distribuição de freqüências. Para fazer o histograma precisamos achar a amplitude do intervalo, ∆i = 2 e calcular fi /∆i . Os valores da densidade de frequência então na coluna 6 da tabela 8 Figura 6: Histograma c. (0,4) Calcule a média, mediana, moda e o desvı́o padrão. Ao igual que o exercı́cio 3, para calcular a media, mediana, moda e o desvio padrão, devemos tomar o ponto médio para cada classe, ver coluna 2 na tabela 8 • Media x̄ ' 71, 3 (32) • Mediana, n= 20 md(x) = X( 20 + X( 20 2 ) 2 +1) 2 ' 71, 0 (33) (34) • Moda mo(x) ' 73, 0 19 (35) • Variância var(x) ' 8, 91 (36) dp(x) ' 2, 95 (37) • Desvio padrão d. (0,4) Faça um ramo-e-folhas, um esquema de cinco números e um box plot. • Ramo-e-folhas 66 67 68 69 70 71 72 73 74 75 76 00 75 25 75 50 50 75 00 25 50 00 00 27 50 25 25 50 25 50 00 • esquema de cinco numeros Na figura 6 o primeiro quartil esta na segunda barra, o primeiro quartil deixa o 25% na esquerda: 70 − 68 15% = q1 = q1 − 68 5% 5 2 + 68 = 68, 67. 15 (38) (39) Na figura 6 o segundo quartil, q2 esta na terceira barra, o q2 deixa o 50% dos dados a esquerda: 72 − 70 20% = q2 = q2 − 70 15% 15 2 + 70 = 71, 5 20 (40) (41) Na figura 6 o terceiro quartil, q3 esta na quarta barra, o q3 deixa o 75% dos 20 dados a esquerda: 74 − 72 25% = q3 = q3 − 72 20% 20 2 + 72 = 73, 6 25 (43) 20 71,5 md q E (42) 68,67 66 73,6 76 Para fazer o blox plot precisamos calcular a distancia interquartil , dq , e o limite inferior, Li e o limite superior, Ls : dq = q3 − q1 = 73, 6 − 68, 67 = 4, 93 (44) Li = q1 − (1, 5) ∗ dq = 68, 67 − (1, 5) ∗ 4, 93 = 61, 28 (45) Ls = q3 + (1, 5) ∗ dq = 73, 6 + (1, 5) ∗ 4, 93 = 81 Figura 7: Histograma 21 (46) e. (0,4) Comente os resultados 22 5. (2,0) Uma maquina foi regulada para fabricar placas de 5 mm de espessura, em média, com uma variabilidade relativa de, no máximo, 3%. Iniciada a produção, foi colhida aleatoriamente uma amostra de tamanho 50, que forneceu a seguinte tabela de distribuição de freqüência com intervalos do mesmo comprimento. Espessura (em mm) No de placas 4,6 ` 3 8 18 10 9 ` 5,50 2 a. (0,4) Esboce o histograma de freqüências percentuais e descreva as principais caracterı́sticas das placas amostradas. Classes altura 4, 60 ` 4, 75 4, 75 ` 4, 90 4, 90 ` 5, 05 5, 05 ` 5, 20 5, 20 ` 5, 35 5, 35 ` 5, 50 Total Ponto médio si 4,675 4,825 4,975 5,125 5,275 5,425 - Frequência absoluta ni 3 8 18 10 9 2 50 Frequência relativa fi 0,06 0,16 0,36 0,20 0,18 0,04 1,00 Porcentagem % 100fi 6,00 16,00 36,00 20,00 18,00 4,00 100,00 Tabela 9: Tabela de frequências para variável altura. Figura 8: Histograma 23 Densidade frequência fi /∆i 0,4 1,07 2,4 1,33 1,2 0.27 - b. (0,4) Que você pode afirmar a respeito da regulagem da maquina? Como as placas devem ter uma espessura de 5 mm e uma variabilidade relativa no Máximo de 3%, então a espessura das placas deve estar pertencer ao intervalo [4,85 ; 5,15]. Do histograma concluı́mos que a maquina não esta regulada pois aproximadamente o 50% das placas produzidas então dentro do intervalo de tolerância. c. (0,4) Determinar e interpretar: a moda e a mediana. • Moda mo(x) ' 4, 975 (47) • Mediana, n= 50 md(x) = + X( 50 X( 50 2 ) 2 +1) 2 ' 4, 975 (48) A mediana e a moda nos dizem que as placas são fabricadas com a espessura requerida a maioria das vezes d. (0,4) Qual deve ser a espessura das placas para ser considerado entre os 10% com maior espes-sura? Vamos a calcular um quartil tal que o 10% das placas fiquei a direita. Para calcular esse quartil devemos procurar na quinta barra na figura 8: 5, 35 − 5, 2 q − 5, 2 = 18 12 12 q = 0, 15 + 5, 2 = 5, 3 18 (49) (50) A espessura da placa para ser considerada entre os 10% com maior espessura deve estar no intervalo [5, 3; 5, 50] 24