1 ESTATÍSTICA CONCEITOS PRIMITIVOS 1 - O QUÊ É A ESTATÍSTICA? Vários autores têm procurado definir a Estatística. Existem muitos livros escritos sobre a Estatística, todos contendo definições desde as mais simples até as mais complexas, porém a qu e vamos sugerir é a enunciada por Dugé de Bernonville, e que julgamos ser simples e fácil de ser memorizada: “ Estatística é um conjunto de métodos e procedimentos quantitativos que para estudar e medir os fenômenos coletivos”. serve 2 - POPULAÇÃO E AMOSTRA Conforme ficou claro na definição, a Estatística tem por objetivo o estudo dos fenômenos coletivos e das relações que existem entre eles. Entende - se como fenômeno coletivo aquele que se refere à população, ou universo, que compreende um grande número de elementos, sejam pessoas ou coisas. Portanto, para a Estatística, somente interessam os fatos que englobam um grande número de elementos, pois ela busca encontrar leis de comportamento para to do o conjunto e não se preocupa com cada um dos elementos em particular. A população pode ser, segundo o seu tamanho, finita ou infinita. É finita a população que possui um número determinado de elementos; a população infinita possui um número in finito de indivíduos. Porém, tal definição existe apenas no campo teórico, uma vez que, na prática, nunca encontramos populações com infinitos elementos mas, sim populações com um grande números de componentes; e, nessas circunstâncias, como ocorre na Es tatística Matemática, tais populações são tratadas como se fossem infinitas. Quando a população é muito grande, torna -se difícil a observação dos aspectos a serem observados, de cada um dos elementos, devido ao alto custo, ao intenso trabalho e o tempo despendido para levar a cabo uma exaustiva observação de todos os componentes da população. Nessas circunstâncias, fazemos a seleção de uma amostra suficientemente representativa da população e, através da observação dessa amostra, estaremos apto s a analisar os resultados, da mesma forma que se estudássemos toda a população, só que nesse caso sem os inconvenientes anteriormente descritos. 3 - ESTATÍSITICA DESCRITIVA E ESTATIÍSTICA PROBABILÍSTICA(INDUTIVA) Agora estamos em condições de defi nir a Estatística Descritiva ou Dedutiva , que é aquela que tem por objeto descrever e analisar determinada população, sem pretender tirar conclusões de caráter mais genérico. A Estatística Indutiva ou Inferência Estatística é a parte da Estatística que, baseando -se em resultados obtidos da análise de uma amostra da população, procura inferir, induzir ou estimar as leis de comportamento da população da qual a mostra foi retirada. Também através da Estatística Indutiva podemos aceitar ou rejeitar hipóteses que podem surgir sobre as características da população, a partir também da análise da amostra representativa dessa população. - ESTATÍSTICA I - Mário 2 ESTATÍSTICA DESCRITIVA 1- INTRODUÇÃO A palavra Estatística, significa, originalmente, uma coleção de informações para o Estado sobre a população e economia. Desta origem, a Estatística cresceu e se desenvolveu até tornar-se um método de análise que, encontra aplicações em todas as ciências sociais. Os fatos sociais exigiram que o homem aplicasse ou elaborasse um método que satisfizesse, em parte, a série de indagações feitas pelas ciências que necessitavam ser respondidas: esse método (ou conjunto de métodos) é denominado método estatístico. FENÔMENOS ESTATÍSTICOS O campo de aplicação da Estatística é o dos fenômenos coletivamente típicos ou fenômenos de massa, que não se caracterizam por observações isoladas, mas observações de massas de casos. FASES DO LEVANTAMENTO ESTATÍSTICO – ESTATÍSITCA DESCRITIVA A seqüência do trabalho estatístico pode ser apreciada com um simples exemplo, muito conhecido do professor e do aluno: a aplicação de uma prova. As questões, planejadas inicialmente, são aplicadas aos alunos (informantes dos questionários) e, logo depois, coletadas e corrigidas (criticadas): compete ao professor, ainda, apurar os resultados divulgando-os (exposição) e analisando-os (interpretação). Portanto as fases do levantamento estatístico são: Planejamento Coleta de dados Apresentação de dados (tabelas e gráficos) Descrição e interpretação dos dados. OBJETIVO: A finalidade da pesquisa é descobrir respostas para questões, mediante a Aplicação de métodos científicos. Tais métodos são desenvolvidos tendo por objetivo criar uma probabilidade cada vez mais tendente para a certeza, de que as informações obtidas às questões apresentadas serem, além de seguras e imparciais, realmente representativas do mundo real. PLANEJAMENTO: Que dados deverão ser obtidos? Como se deve obtê-los? Ao planejar uma pesquisa devemos, como medida preliminar, reunir todo material, existente: mapas, relatórios, artigos, livros, etc, relativo a levantamentos semelhantes; ou seja devemos Ter conhecimento da literatura sobre o assunto, pois é justamente onde encontramos as informações sobre os possíveis fatores do fenômeno a estudar. Além disso, traz valiosas informações no que diz respeito a técnica mais recomendável para a realização da pesquisa. - ESTATÍSTICA I - Mário 3 Nenhuma pesquisa se inicia sem que se tenha previamente organizado o seu programa, da maneira mais completa possível, pois esquematizado o problema conhecidos os suportes o seus fatores, concluímos imediatamente quais os dados de que necessitamos. DEFINIÇÃO DO UNIVERSO È o caminho a seguir após a organização do plano geral, a equipe deverá saber qual o caminho a ser pesquisado, para permitir um trabalho mais fácil, mais lógico, mais racional, mais preciso, pois caso contrário comprometeremos os resultados do levantamento; torna-se portanto necessário delimitar claramente, no tempo e no espaço do inquérito, definindo, em termos precisos, o universo a ser trabalhado. Toda pesquisa é trabalho grandemente dispendioso. Sempre que possível, procuraremos restringir-lhe o vulto, sem que com isso se perca o rigor que o caso exija. Em vez de pesquisarmos uma totalidade de casos, pesquisaremos apenas um grupo, isto é, uma amostra desde que não afete a precisão dos resultados. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamentos: censitário e amostragem. O tipo de levantamento, censo ou de amostragem, deverá ser decidido com antecedência e a necessária análise das vantagens e desvantagens, de um e de outro, pois três fatores essenciais - tempo, custo e precisão, governam todo e qualquer tipo de levantamento Ele acima de tudo, é função dos recursos financeiros e do prazo determinado para a conclusão do trabalho. Vale assinalar que nem sempre a amostragem é mais barato que um levantamento completo e isto porque, quer no planejamento quer na execução, o pessoal empregado numa operação por amostragem é de nível técnico mais elevado e, portanto, mais caro. COLETA DOS DADOS Como? Quando? e Onde? Obter as informações julgadas necessárias e suficientes? Na fase inicial do trabalho estatístico, o planejamento já ficou decidido ONDE seriam coletadas as informações. É possível que as informações, desejadas pela equipe possam ser obtidas em órgãos que já as coletou. Nesse caso, haveria apenas uma transcrição, o trabalho seria mais rápido e menos oneroso. Ex: cartórios onde encontramos os registros de casamento, os balancetes comerciais e bancários. que são as fontes de estatísticas. DADOS ESTATÍSTICOS Entende-se por dados estatísticos a representação numérica de fenômenos coletivamente típicos. Assim, por exemplo, o número de alunos de uma escola, os habitantes de uma país, q a quantidade de soja produzida em Minas Gerais em 2003, constituem dados estatísticos. Dados primários- são os dados estatísticos que foram colhidos, ou publicados pela própria pessoa ou organização que vai analisá-los. Dados secundários- são os dados que foram colhidos por pessoa, ou organização diversa daquela que vai analisá-los. Um conjunto de dados é, pois, primário ou secundário em relação a alguém. Há diversas maneiras de obtermos as informações, mas todas usam como instrumento operacional um questionário, portanto temos: - ESTATÍSTICA I - Mário 4 questionário enviado questionário apresentado questionário e interrogatório inquérito pessoal APURAÇÃO DOS DADOS Antes de começar a analisar os dados é conveniente que lhes seja dado algum tratamento prévio, a fim de torná-los mais expressivos. È um trabalho de condensação e de tabulação dos dados, que chagam ao analista de forma desorganizada, tornado impossível a tarefa de apreender todo o seu significado pela simples leitura. Por conseguinte através da apuração, tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade. A apuração é geralmente realizada através de processos mecânicos, a menos que o número de dados seja pequeno. APRESENTAÇÃO DOS DADOS (Tabelas e gráficos) Após a apuração, os dados estatísticos são apresentados em tabelas ou em gráficos, por ser uma maneira prática e racional de apreciar e entender o fenômeno que está estudando. TABELAS A elaboração de tabelas obedece a Resolução nº 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. Os seguintes pontos deverão ser estudados: A tabela, como um dado, inclue seu título e todos as notas explicativas. Ela deve ser Auto-Explicativa. O título e os cabeçalhos da colunas e linhas devem ser claros concisos, e o mais resumido possível. O cabeçalho deve conter o suficiente para que sejam respondidas as seguintes perguntas: O quê? (referente ao fato) natureza da classificação Onde? (relativo ao lugar) lugar Quando? (correspondente a época) tempo Linha - é uma série horizontal de informações Coluna - é a parte destinada a uma série vertical de informações. A interseção de uma linha com uma coluna corresponde à célula ou casa. As unidades de medidas devem sempre ser registradas; Os termos usados devem ser definidos em rodapé; Se a tabela foi retirada ou derivada de outras, a fonte deve ser dada em nota de rodapé; Os números devem ser arredondando a fim de evitar detalhes inúteis: As tabelas devem ser ajustadas ao espaço disponível; não devem ser muito estreita e nem muito largas; A tabela não deve ser fechada lateralmente por traços verticais. Na parte superior, bem como na inferior, a tabela é fechada por linhas de traço mais cheio. As casas não deverão ficar em branco apresentando sempre um número ou sinal convencional. - ESTATÍSTICA I - Mário 5 Empregam-se os seguintes sinais convencionais: a) ___(traço) quando o dado for nulo; b) ... (três Pontos), quando não se dispuser do dado c) X (letra X), quando o dado for omitido a fim de evitar a individualização das informações. No corpo da tabela encontramos as seguintes zonas 1. Designativa 2. Indicativa 3. Enumerativa TÍTULO ( O que) SUBTÍTULO ( onde? Quando?) Zona designativa (cabeçalho) Zona indicativa Zona enumerativa Total Fonte: ( rodapé) REPRESENTAÇÃO GRÁFICA O gráfico é uma maneira simples e efetiva e torna compreensível uma tabela. Muitos tipos de gráficos são empregado na estatística, dependendo da natureza dos dados pertinentes e da finalidade para a qual ele é destinado. Estas representações gráficas chamam-se Gráficos ou Diagramas. Os gráficos apresentam os dados estatísticos de uma maneira clara e simples, por meio de desenhos geométricos. FINALIDADE DA APRESENTAÇÃO GRÁFICA: O gráfico é uma representação da relação existente entre as variáveis. Embora a representação dos dados através de desenhos, dependa muito do espírito de criatividade e do bom gosto de quem vai executar a tarefa, alguns princípios elementares, no entanto devem ser observados. Assim, dentre as normas consideradas básicas, destacamos as seguintes: a) o gráfico deve ser simples, b) é necessário que o gráfico apresente o título, e, quando for o caso título e subtítulo, Quê ( título) Onde ( subtítulo) c) devem ser utilizadas no desenho apenas as linhas necessárias à leitura, d) as unidades utilizadas para representar o fenômeno devem estar expressas no desenho. e) Guardar certa proporcionalidade entre os eixos, de modo que alinha das ordenadas corresponde, NO MÁXIMO, a 80% das abscissas. PRINCIPAIS TIPOS DE GRÁFICOS 1) gráficos de barras 2) gráficos de colunas 3) gráficos em linhas ou lineares - ESTATÍSTICA I - Mário 6 4) gráficos em faixas 5) gráficos em setores 6) gráficos representativos de distribuição de freqüência a) histograma b) polígono de freqüências DESCRIÇÃO OU INTERPRETAÇÃO DOS DADOS A última fase do trabalho estatístico é a mais importante e também a mais delicada. Nesta etapa, o interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver o problema. A análise dos dados cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser expresso por números - resumos, as estatísticas, que evidenciam características particulares desse conjunto. 2- SOMATÓRIO Muitas vezes precisamos escrever somas com muitos termos, ou cujos termos obedecem a certa lei de formação. Por exemplo, a soma dos 50 primeiros números naturais positivos. 1 + 2 + 3 + ....+ 49 + 50 Sendo xi o i-ésimo número natural da soma, podemos obter a seguinte simbologia. 50 xi = 1 + 2 + 3 + ... + 49 + 50 i=1 De modo geral, teremos n xi = x1 + x2 + x3 + ... + xn i=1 Propriedades dos somatórios 1- Sendo c uma constante, teremos n a) c.xi = c.x1 + c.x2 + c.x3 + ... + c.xn i=1 = c(.x1 + x2 + x3 + ... + xn ) n b) c = c + c + c + … + c = c.n i=1 2- Somatório da soma ou diferença n (xi yi) i=1 n n i=1 i=1 = xi yi - ESTATÍSTICA I - Mário = n c. xi i=1 7 De fato! ( xi + yi) = x1 + y1 + x2 + y2 + x3 + y3 + ….+ xn + yn = (x1 + x2 + x3 + ... xn) + (y1 + y2 + y3 + ... + yn) = xi + yi Por tanto, ( xi + yi) = xi + yi. Idem para ( xi - yi) = xi - yi SOMATÓRIO DUPLO É freqüente, na representação dos dados estatísticos, o uso de tabelas de dupla entrada, onde os valores são expressos em função de duas variáveis. Uma variável em linha e uma variável em coluna. Por exemplo: Representação do estado civilxsexo (masculino ou feminino). Seja xij um elemento genérico, sujeito à i-ésima linha e à j-ésima coluna da tabela. j i 1 1 2 3 . . . L 2 3 ....... k x11 x12 x21 x22 x31 x32 x13 ..... x1k x23 ..... x2k x33 ..... x3k xL1 xL3 .… xLk xL2 Exemplo: xij representa o elemento sujeito à i-ésima linha e à j-ésima coluna da tabela. j i 1 1 2 3 2 3 4 5 -2 2 1 8 -1 0 6 4 1 7 3 Calcular 3 4 a) xij i=1 j=1 4 b) x2j i=1 3 c) xi3 - ESTATÍSTICA I - Mário 8 i=1 3 4 d) xij i=2 j=2 e) (xij – 1)² EXERCÍCIOS 1- Desenvolva cada uma das somas indicadas: 5 a) xi , onde x1 = 0, x2 = 4, x3 = 1, x4 = 10, x5 = 8 i=1 4 b) xi , onde x1 = 4, x2 = 2, x3 = 7, x4 = 19 i=1 2- Sendo X: x1 = 7, x2 = 3, x3 = 8, x4 = 2, x5 = 1 Y: y1 = 3, y2 = 1. y3 = 5, y4 = 6, y5 = 2, a) b) c) d) e) f) calcular X Y X² X.Y (X + Y) (X + 4) 3- Usando os dados do exercício 2, constate que: a) X.Y X . Y b) ( X)² X² 1- Xij representa o elemento sujeito à i-ésima linha e à j-ésima coluna da tabela: j 1 2 3 1 2 3 4 4 1 3 2 -1 4 0 3 -1 -2 0 4 i 4.1 Quais são os elementos x22, x23, x13, x31, x²43 - ESTATÍSTICA I - Mário 9 4.2 Calcular a) xij b) 4 3 xij i=2 j=2 c) x2j d) xi3 e) x²ij e) (xi2 + 1)² 2- O elemento Xij representa o número de pessoas que estão sujeitas à i-ésima faixa etária e a j-ésima faixa de renda. Idade 8 (anos) 18 24 18 Renda em R$ mil 18 18 28 28 38 38 48 48 58 58 128 12 10 7 5 3 24 30 10 8 9 7 8 10 30 36 5 4 8 10 13 15 36 42 4 3 7 15 12 18 42 48 1 5 8 10 15 20 I – Calcule a) xij b) xi3 c) x2j 5 6 d) xij i=2 j=3 d) x3j II – a) Escreva simbolicamente a soma dos elementos com renda maior ou igual a R$28.000 e que tenha idade maior ou igual a 30 anos. b) Escreva simbolicamente a soma dos elementos com renda na faixa 48 58. c) Escreva simbolicamente a soma dos elementos que estão na faixa etária 36 42. 3- DISTRIBUIÇÃO DE FREQÜÊNCIA Um arranjo tabular dos dados juntamente com as freqüências correspondentes, é denominado distribuição de freqüência: Exemplos - ESTATÍSTICA I - Mário 10 1) 0 0 0 Vamos admitir que a empresa X conte com 60 funcionários entre casados e solteiros. E que o gerente de pessoal, da empresa, está interessado em verificar se o número de filhos por funcionários da fábrica tem algum comportamento característico do ponto de vista estatístico. Para iniciar a sua análise, o gerente de pessoal consulta o arquivo das fichas dos funcionários, de onde extrai os dados. Números de filhos dos funcionários da empresa DADOS BRUTOS 1 0 2 3 0 0 4 0 0 3 0 2 0 2 3 0 3 2 2 1 4 1 0 0 5 0 0 1 0 3 0 2 0 2 5 2 0 3 0 0 1 2 4 0 3 1 6 4 0 4 2 0 7 2 0 0 3 ROL - é um arranjo de dados numéricos brutos em ordem crescente ou decrescente de grandeza Distribuição de freqüência - dados não agrupados em classes (intervalos). Funcionários da empresa X, segundo números de filhos. Nº de filhos 0 1 2 3 4 5 6 7 8 total freqüência 26 6 11 8 5 2 1 1 0 60 Fonte: departamento pessoal da empresa X A representação gráfica do fenômeno acima poderá ser feita através do gráfico em hastes ou gráfico de bastões. TÍTULO: Número de filhos dos funcionários da empresa X F X - ESTATÍSTICA I - Mário 11 Fonte: Departamento pessoal da empresa X 2) Os valores abaixo, correspondem as notas finais do curso de matemática de 80 estudantes da Universidade Unimonte em 20xx, obtidos na secretaria da Universidade. Dados Brutos 68 71 75 71 78 84 69 94 79 62 75 85 77 62 76 82 75 69 67 53 68 61 77 97 74 90 75 68 78 86 62 87 60 85 67 88 74 96 76 73 76 62 78 65 81 93 73 79 95 78 63 89 61 75 71 75 65 72 63 76 88 72 95 80 75 73 66 60 73 85 60 78 79 67 77 93 82 83 88 65 ROL Neste caso contudo, não é conveniente procedermos como no caso anterior, porque a tabela de freqüência teria 35 valores diferentes e seria, ainda muito extensa. Ao invés disso, vamos considerar intervalos (classes) e contar quantas observações se encaixem dentro de cada classe. Número de intervalos (classes) Quantas classes serão necessárias para representar o fato? O número de classes é representado por k. È importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação se poderá extrair da tabela. Se por outro lado, forem utilizados muitas classes, haverá algumas com freqüência nula ou muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno como um todo. Existem vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de classes, porém tais critérios servirão apenas como indicação e nunca como regra fixa, pois caberá sempre ao pesquisador estabelecer o melhor número levando-se em conta o intervalo de classe e a facilidade para os posteriores cálculos numéricos. Assim, podemos indicar um método que considero mais prático. Nº de elementos observados 51 101 201 301 mais Até a a a a de 50 100 200 300 400 400 Número de classes Mínimo máximo 5 8 10 12 15 20 10 16 20 24 30 40 - ESTATÍSTICA I - Mário 12 Dessa forma o pesquisador usando o bom senso e a sua experiência verificará qual seria o intervalo de classe, mesmo que o número de classes não seja o determinado pela tabela ou por outros métodos existente, como a fórmula de Sturges K = 1 + 3,3 log N, mas que facilite as operações posteriores Notas finais do curso de matemática da Universidade Unimote-20xx Notas Xi (PM) Nº de FAC FAD FR FRAC FRAD F% F%AC F%AD Alunos 50 55 55 60 60 65 65 70 70 75 75 80 80 85 85 90 90 95 95 100 Total Fonte: Secretaria da Universidade Unimonte . MG Tipos de freqüências Freqüência absoluta : simples. Acumulada crescente e acumulada decrescente Freqüência relativa : simples, acumulada crescente e acumulada decrescente Freqüência percentual : simples, acumulada crescente e acumulada decrescente. Histogramas e Polígonos de freqüência são representações gráficas da distribuição de freqüência.(Veja na losa os respectivos gráficos das distribuições do exemplo acima) ESTATÍSTICA I - EXERCÍCIOS Assunto: Distribuição de freqüência Prof. Mário Roberto Filho 1- Dada a distribuição de freqüência abaixo, calcular os pontos médios, as freqüências acumuladas, crescente e decrescentes, as freqüências - ESTATÍSTICA I - Mário 13 relativas simples e acumuladas, crescentes e decrescentes, freqüências percentuais simples, acumuladas crescente e decrescente. ESTATURAS FREQ. PM FAC FAD (cm) f 147 150 5 150 153 14 153 156 12 156 159 17 159 162 13 162 165 19 165 168 10 168 171 8 171 174 12 174 177 10 TOTAL FR FRAC FRAD F% F%AC F%AD 120 b) RESPONDA 1- quantos alunos tem estatura de 147 162? 2- Quantos alunos tem estatura de 159 168 ? 3- Qual a % dos alunos que medem abaixo de 165 cm ? 4- Qual a % dos alunos que medem de 159 171 cm ? 5- qual a % dos alunos acima de l65 cm ? 6- qual a classe de estatura do 5º aluno ? 7- qual a classe de estatura do 18º aluno ? 8- até que classe de estatura são compreendidos 60% dos alunos ? 2) De acordo com a tabela apresentada acima, construir: histogramas e polígonos de freqüências, das seguintes freqüências: a) freqüência simples b) freqüência acumulada crescente c) freqüência acumulada decrescente. 3) A tabela abaixo mostra a distribuição de freqüência da notas de estatística de 320 alunos do curso de Administração de uma universidade Y - ESTATÍSTICA I - Mário 14 NOTAS Nº DE ALUNOS 0 10 3 10 20 7 20 30 12 30 40 34 40 50 48 50 60 90 60 70 54 70 80 52 80 90 15 90 100 5 TOTAL FAC FAD F% F%AC F%AD N = 320 Com base nessa tabela, pede-se a) a percentagem de alunos cuja nota não excede a 58 . b) o número de alunos com nota maior ou igual a 83 . c) a percentagem de alunos cuja nota é 28 no mínimo, mas inferior a 87. 4) Tabular convenientemente as notas abaixo, atribuídas aos 52 alunos da turma A que prestaram a prova B em julho de 20xx. 93 95 100 100 10 23 20 10 80 100 50 53 80 73 53 28 93 85 90 8 8 48 43 55 80 70 60 95 75 73 58 45 98 53 78 100 93 88 95 78 20 50 100 50 65 90 35 33 90 58 43 100 38 93 65 53 33 68 100 78 58 83 100 85 68 98 58 38 48 70 83 78 25 65 95 43 70 65 5 45 68 17 MEDIDADA DE POSIÇÃO OU DE TENDÊNCIA CENTRAL São utilizadas para resumir e desenvolver o conjunto de valores representativos do fenômeno que se deseja estudar. 1- Médias 2- Moda - ESTATÍSTICA I - Mário 15 3- Separatrizes (Mediana, Quartis, Decis, Percentis) 1- MÉDIA 1.1- Média Aritmética - Dados não agrupados Sejam X1, X2, X3, ....., Xn. A média aritmética simples da variável X representada por X é definida por: n Xi X = i=1 n em que n é o número de elementos do conjunto Exemplo: Um aluno submeteu-se a um concurso, obtendo os seguintes resultados: Contabilidade....................................7 Matemática.......................................8 Português..........................................5 História.............................................9 Digitação...........................................6 Legislação.........................................4 Determinar a média final do candidato X = 7+8+5+9+6+4 6 = 39 6 = 6,5 1.2- Média Aritmética Dados Agrupados Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a média aritmética dos valores, ponderados pelas respectivas freqüências absolutas: f1, f2, f3, ......,fn. assim: k fixi X= i =1 n Exemplo1: - ESTATÍSTICA I - Mário 16 Funcionários da empresa CASTANHEIRA, segundo o número de filhos. Nº de filhos Nº de funcionários fixi 0 1 2 3 4 5 6 7 8 40 11 20 19 14 9 4 2 1 0 11 40 57 56 45 24 14 8 TOTAL 120 255 Fonte: Departamento de pessoal da empresa Castanheira X = 255 = 2,125 2 ( os funcionários da empresa possui em média 2 filhos). 120 Exemplo 2: Resultados da Prova de Estatística do Curso de Administração da escola X - Julho de 2002. Notas Nºde alunos xi fixi 10 15 20 25 30 35 40 45 50 2 11 26 17 8 6 3 2 1 7,5 12.5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 15 137,5 455 382,5 220 195 112.5 85 47,5 TOTAL 76 5 10 15 20 25 30 35 40 45 1650 FONTE: Secretaria da Escola X X = 1650 = 21,7 pontos 76 - ESTATÍSTICA I - Mário 17 1.3- PROPRIEDADES DA MÉDIA ARITMÉTICA 1-3.1- Se a cada valor da variável adicionarmos ou subtrairmos uma constante, a média fica acrescida ou diminuída desta mesma constante. 1.3.2- Se multiplicarmos ou dividirmos cada valor da variável por uma constante 0, sua média fica multiplicada ou dividida por essa constante. 1.3.3- A soma dos desvios em torno da média é nula (zero). Desvio diferença, afastamento, resíduo ou discrepância é a diferença entre cada valor da variável e sua média. 1.4- PROCESSO ABREVIADO PARA O CÁLCULA DA MÉDIA O método anterior é chamado processo longo, devido aos cálculos. Esse processo que veremos agora é útil quando os valores de X forem grandes e a amplitude entre tais valores for constante, pois facilita nos cálculos. Esse processo baseia-se nas propriedades da média que acabamos de mencionar. Exemplo Resultados da Prova de Estatística do Curso de Administração da escola X - Julho de 2002. Notas Nºde alunos xi zi fizi 5 10 2 7,5 -4 -8 10 15 11 12.5 -3 -33 15 20 26 17,5 -2 -52 20 25 17 22,5 -1 -17 25 30 8 27,5 0 0 30 35 6 32,5 1 6 35 40 3 37,5 2 6 40 45 2 42,5 3 6 45 50 1 47,5 4 4 TOTAL 76 -88 FONTE: Secretaria da Escola X Zi = xi - xo h Z = k fizi i=1 mas -88 = = -1,16 76 n X = h .Z + xo = 5(-1,16) + 27,5 = 21,7 pontos - ESTATÍSTICA I - Mário 18 xo é uma constante arbitrária tomada convenientemente. 1.5- ASPÉCTOS A SEREM OBSERVADOS NO EMPREGO DA MÉDIA ARITMÉTICA. 1.5.1- A média é uma medida de tendência central que por uniformizar os valores, não representa bem os conjuntos que revelam tendências extremas; sendo influenciada pelos valores extremos da série. 1.5.2- Não necessariamente tem existência real, isto é, nem sempre é um elemento que faz parte do conjunto, para bem representá-lo, embora pertença obrigatoriamente ao intervalo entre a maior e menor ocorrência. 1.5.3- Não pode ser calculada para distribuição com limites indeterminados (indefinidos). 1.5.4- Depende de todos os valores da série, enquanto outras medidas como veremos adiante, são calculadas em função de parte dos elementos do conjunto e a média aritmética depende de todos os elementos, sendo pois exaustiva sob o aspecto de cálculo. 2- MODA Pode-se definir a moda como sendo o valor mais freqüente, quando comparada sua freqüência com a dos valores de um conjunto. Notação: Mo, ^X. Exemplo: 4, 5, 1, 2, 1, 2, 1, 2, 5, 3, 2, 2, 6, 4, 2, 2, 6, 6, 7, 7, 8, 8 Mo = 6 (unimodal) 5 (amodal) 3, 3, 4, 5, 5, 5, 6, 6 Mo = 2 e Mo = 5 (bimodal) 1, 1, 4, 5, 6, 5, 6, 5 Mo = 1, Mo = 2 e Mo = 5) Pontos obtidos pelos 20 alunos da turma A - matemática NOTAS Nª DE ALUNOS 18 1 17 2 16 2 15 3 14 3 13 5 12 2 11 3 TOTAL 20 - ESTATÍSTICA I - Mário Mo = 13 pontos 19 Fonte: Secretaria da Escola Prova de Matemática, 1º ano/ensino médio - 2003, Escola X NOTAS Nº DE ALUNOS 5 10 2 10 15 11 15 20 26 20 25 17 25 30 8 30 35 6 TOTAL Classe modal 70 Fonte: Secretaria da Escola Mo = L + 1 .h = 15 + 15 / (15 + 9).5 = 18,13 pontos 1 + 2 Onde: 1 é o excesso da classe modal em relação à classe anterior. 2 é o excesso da classe modal em relação à classe posterior L é o limite inferior da classe modal h é a amplitude da classe modal. Moda Bruta: 15 + 20 = 17,5 pontos 2 2.1- DETERMINAÇÃO GRÁFICA DA MODA - ESTATÍSTICA I - Mário 20 f 28 R S 24 1 20 E P 16 F 2 T 12 8 Q 4 5 10 15 Mo 20 L1 25 30 35 Notas L2 Os triângulos PQR e PST são semelhantes, portanto, seus lados são proporcionais e podemos escrever: QR EP = ST PF 1(L2 - Mo) = 2(Mo -L1) 1.L2 - 1.Mo = 2.Mo - 2.L1 1.L2 + 2.L1 = 2.Mo + 1.Mo 1(L1 + h) + 2.L1 = Mo(1 + 2) 1.L1 + 1.h + 2.L1 = Mo(1 + 2) L1.(1 + 2) + 1.h (1 + 2) Mo = L1 + 1 = Mo 1 + 2 .h 1 + 2 2.3- ASPECTOS A SEREM OBSERVADOS NO EMPREGO DA MODA 2.3.1- A Moda não depende de todos os valores da série, nem de sua ordenação (ROL), podendo mesmo não se alterar com a modificação de alguns valores da série. 2.3.2- Não é influenciada pelos valores extremos da série. 2.3.3- Sempre tem existência real ou seja sempre é representada por um elemento do conjunto de dados, exceto o caso de classes de freqüências, que trabalhamos com subconjuntos (dados agrupados) e não com cada elemento isoladamente. - ESTATÍSTICA I - Mário 21 2.3.4- Pode ser calculada para distribuição som limites indeterminados (indefinidos) 4- SEPARATRIZES 4.1- MEDIANA: É um valor que provoca dividir a distribuição de freqüência exatamente ao meio de tal forma que 50% dos casos fiquem aquém e 50% fique além de seu valor. NOTAÇÃO: Me 4.2- POSIÇÃO DA MEDIANA PMe = n + 1 2 Exemplo: 2, 3, 6, 12, 15, 23, 25 Pme = 7 + 1 = 4º posição Me = 12 2 1, 4, 6, 8, 9, 10 Pme = 6 + 1 2 = 3,5 ( entre 3º e 4º posição) Me = (6 + 8)/2 = 7 4.3- DETERMINAÇÃO DA MEDIANA NA DISTRIBUIÇÃO DE FREQÜÊNCIA NOTAS Nº DE AL.(F) FAC 20 30 25 25 30 40 85 110 40 50 do Q1 155 265 50 60 180 445 60 70 45 490 70 80 10 500 TOTAL Classe da mediana classe 500 k-1 Pme = 500/2 = 250º fi n Me = LMe + i=1 2 FMe - ESTATÍSTICA I - Mário .h 22 Me = 40 + ( 250 - 110) / 155. 10 = 49, 03 49 pontos Por interpolação, teremos 155...................................10 140(=250 - 110) .... x 4.4- A ASPÉCTOS MEDIANA x = 9,03 logo Me = 40 + 9,03 = 49,03 pontos. SEREM OBSERVADOS NO EMPREGO DA 4.4.1- Não depende de todos os valores da série e, podemos mesmo não se alterar com a modificação de alguns valores, porém tem que estar dentro do Rol. 4.4.2- Não é influenciada pelos valores extremos da série. 4.4.3- Pode ser calculada para distribuição com limites indeterminados. 4.4.4- Não necessariamente tem existência real, embora pertença ao intervalo considerado. 5- QUARTIS, DECIS, PERCENTIS. 5.1- QUARTIS - divide o conjunto em 4 partes iguais ( Q1, Q2, Q3, Q4 ) 5.2- DECIS - divide o conjunto em 10 partes iguais (D1, D2, D3,............D10) 5.3- PERCENTIS - divide o conjunto em 100 partes iguais.(P1, P2, P3, ......., P100) Posição dos quartis: PQi = i.n / 4 Posição dos decis: PDi = i.n / 10 Posição dos percentis: PPi = i.n / 100 A maneira de calcular os quartis, decis, percentis são análogos ao cálculo da mediana, mudando assim, apenas o cálculo de cada, quartil, decil ou percentil. Referente a distibuição de freqüência dada para calcular a mediana, calcularemos como exemplo o primeiro quartil. PQ1 = 1.500 / 4 = 125 pontos. Q1 = 40 + (125 - 110) / 155.10 = 40,96 41 Fica como exercícios o cálculo de Q3, D4, P10, P90 e outros caso julgue necessário. 5.4- RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA Houve que observasse, em vários exemplos de gráficos de distribuições de freqüência as diferenças sobre a abscissa entre a média, mediana e moda chegando a - ESTATÍSTICA I - Mário 23 uma relação aproximada entre essas três medidas, para distribuições unimodais e não muito assimétrica. Foi Pearson que admitiu que tais condições a distância entre a média e a moda è 3 vezes maior que a distância entre a media e a mediana. X - Mo = 3.( X - Me) Mo = 3Me - 2X. X = Me = Mo (simétrica) X Me Mo ( assimétrica negativa X < M e< Mo) Mo Me X (assimétrica positiva: X > Me > Mo) EXERCÍCIOS 1-Com base na tabela abaixo determinar o salário médio(método longo e abreviado), a empresa X Salário (R$) fi 500 600 3 600 700 4 700 800 7 800 900 9 900 1000 10 1000 1100 8 1100 1200 6 1200 1300 3 TOTAL 50 - ESTATÍSTICA I - Mário 24 Fonte: Departamento Pessoal 2- Determinar a mediana do conjunto de números: 5, 4, 8, 3, 7, 2, 8. 3- De acordo com os dados da tabela abaixo determinar a duração média, a mediana, a moda, o Q1, D8 e o P70 das válvulas fabricadas pela empresa X. DURAÇÃO (H) Nº DE VALVULAS 300 400 14 400 500 46 500 600 58 600 700 76 700 800 68 800 900 62 900 1000 48 1000 1100 22 1100 1200 6 TOTAL 400 4- Na distribuição de salários descrita abaixo SALÁRIOS (R$) nº de operários 500 600 28 600 700 32 700 800 20 800 900 6 900 1000 4 TOTAL 90 Determinar: a) Qual o salário acima do qual estão situados os 10% mais bem remunerados? b) Qual o salário abaixo do qual se encontram os 15% mais mal remunerados? c) Acima de que salário estão os 18 operários mais bem pagos? - ESTATÍSTICA I - Mário 25 d) Abaixo de que salário se situam os 36 operários mais mal remunerados? e) Discutir quanto a simetria, a distribuição de salário, desses operários. 5- MEDIDAS DE DISPERSÃO Para descrever estatisticamente um conjunto de dados, uma medida de tendência central não é suficiente, é preciso, ainda, informar uma outra dimensão do fenômeno que analise a forma da distribuição de freqüência, ou seja, a concentração ou dispersão dos dados. Temos necessidades de outra estatística: uma medida de variabilidade. As medidas de variabilidade se caracterizam por medirem as diferenças entre os valores de uma distribuição, o que implica que tais medidas refletem as diferenças grupais. Isso significa que elas informam sobre o grau de heterogeneidade do grupo. Freqüentemente, são realizadas pesquisas educacionais, sociais, psicológicas e outras visando a comparação de gruas de heterogeneidade dos grupos. Seria uma impropriedade dizer graus de homogeneidade em se tratando de fenômenos sociais, portanto, cada ser humano é único, sempre diferente de outro, em algumas características, resultando grupos sociais sempre heterogêneos com variações de graus: alguns grupos são "menos heterogêneos" do que outros e não "mais homogêneos". Suponhamos as três séries de valores: A: 60, 60, 60, 60, 60, 60 X = 360/6 = 60 B: X = 360/6 = 60 X = 360/6 = 60 5, 10, 20, 60, 120, 145 C: 56, 58, 60, 61, 62, 63 Observando as séries notamos que em cada grupo os valores se distribuem diferentemente em relação à sua média: Necessitamos assim de uma medida estatística complementar para melhor caracterizar cada conjunto apresentado, assim sendo teremos: 1- AMPLITUDE TOTAL 2- VARIÂNCIA 3- DESVIO-PADRÃO 4- DESVIO-MÉDIO 5- COEFICIENTE DE VARIAÇÃO - ESTATÍSTICA I - Mário 26 1- AMPLITUDE TOTAL: Nos dá idéia do campo de variação dos valores da série, desprezando assim os valores intermediários, o que a torna insensível á dispersão dos demais valores entre os pontos de máximos e mínimos. A: 60 - 60 = 0 B: 145 - 5 = 140 ( mais heterogênea) C: 63 - 56 = 7 2- VARIÂNCIA: é uma medida de variação usada para indicar como as variações se dispersam em torno de sua média. È a média dos quadrados dos desvios em torno da média aritmética. S2 = (Xi - X )2 ( dados não agrupados) n S2 = fi( Xi - X)2 ( dados agrupados) n EXEMPLO 1 Analisando os dados abaixo, teremos 56m, 58m, 60m, 61m, 62m, 63m X = 60m S2 = (56 - 60)2 + (58 - 60)2 + (60 - 60)2+ (61 - 60)2 + (62 - 60)2 + (63 - 60)2 = 5,67m2 6 3- DESVIO PADRÃO: Note-se que o valor encontrado da variância não está em unidade igual da variável original, seu valor representa o quadrado da unidade original. Resta-nos assim estrair a raiz quadrada da variância para retornar à mesma unidade dos dados originais e obter o melhor índice de variabilidade, o DESVIOPADRÃO. 4- S = S2 = 5,67 S = 2,38m - ESTATÍSTICA I - Mário 27 EXEMPLO 2 Lançando um dado 50 vezes, obteve-se a seguinte distribuição VALORES Nº de vezes fixi (Xi - X)2 Xi - X fi(Xi - X)2 1 6 6 -3 9 54 2 11 22 -2 4 44 3 6 18 -1 1 6 4 7 28 0 0 0 5 9 45 1 1 9 6 11 66 2 4 44 50 185 TOTAL 157 X = 185 / 50 = 3,75 4 S2 = fi(Xi - X)2 = 157 / 50 = 3,14 S = 3,14 S = 1,77 n Seja a distribuição das estaturas de 100 alunos de uma classe, determinar as variância e O desvio padrão. ESTATURA Nº de alunos 1,40 1,50 5 1,50 1,60 10 1,60 1,70 30 1,70 1,80 40 1,80 1,90 10 1,90 2,00 5 TOTAL Xi FiXi (Xi - X) (Xi - X)2 Fi(Xi - X)2 100 X = - ESTATÍSTICA I - Mário 28 S2 = S = 6- DESVIO-MÉDIO: O desvio médio ou média dos desvios é igual à média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: MEDIA OU MEDIANA. DM = Xi - X (dados não agrupados) DM = fiXi - X (dados agrupados) n n EXEMPLO 1 A = 10, 12, 13, 20, 25, 34, 45 = 22,714 XA = 10 + 12 + 13 + 20 + 25 + 34 + 45 7 Pme = (n + 1)/2 = 8/2 = 4 Xi Xi - X 10 12,714 10 12 10,714 8 13 9,714 7 Me = 20 Xi - Me Logo: DM = 71, 714 = 10,245 7 20 2,714 0 ou 25 2,286 5 DM = 69 34 11,286 14 45 22,286 25 Total 71,714 = 7 69 EXEMPLO 2 : Consumo de energia elétrica (kwh) de 80 usuários - ESTATÍSTICA I - Mário 9,857 29 Consumo(kwh) F 5 25 4 25 45 6 45 65 14 65 85 26 85 105 14 105 125 8 125 145 6 145 165 2 TOTAL 80 Fonte: Departamento de distribuição de energia da empresa X = Me = DM = ou DM = MEDIDAS DE ASSIMETRIA 1- Comparação sobre as medidas de Tendência Central X Mo a distribuição é assimétrica positiva X = Mo a distribuição é simétrica X Mo a distribuição é assimétrica negativa 2- Coeficiente de Pearson ( Karl Pearson) AS = X - Mo ou AS = 3( X - Me) S ( primeiro coeficiente de Pearson) S Se AS = 0 a distribuição é simétrica Se AS 0 a distribuição é simétrica positiva Se AS 0 a distribuição é assimétrica negativa OBSERVAÇÃO: Não é comum o aparecimento de curvas de freqüência com deformação superior a 1 . Desta forma, um índice AS = -0,6 expressa alto - ESTATÍSTICA I - Mário 30 enviesamento negativo, já um resultado AS = 0,1 mostra uma assimetria positiva despresível. EXEMPLO O aproveitamento da prova de inglês das primeiras séries da escola X, dezembro de 2002. Curso X Mo S Diurno 20 18 3 Noturno 12 14 6 ASd = 20 - 18 = 0,66 3 6 ASn = 12 - 14 = - 0,33 7- COEFICIENTE DE VARIAÇÃO DE PEARSON S CV = x 100 (dispersão relativa) X As medidas de variabilidade que vimos, somente são comparáveis quando se referem a uma escala de medidas, com a mesma unidade, ainda, quando os grupos tem médias não muito diferentes. No caso em que são diferentes as medidas em comparação ( centímetro, peso, etc) os grupos, usa-se uma medida de variabilidade relativa à média: é o coeficiente de variação. EXEMPLOS 1- Consideremos a distribuição das alturas de 50 pessoas e a distribuição de seus respectivos pesos. Xa = 173,3 cm Sa = 8,7 cm Xp = 69,5 Kg Sp = 4,2 kg Cva = 8,7/ 173,3 x 100 = 5,02% CVp = 4,2 / 69,5 x 100 = 6,04% Pode-se concluir que a população é menos heterogênea em relação a altura. - ESTATÍSTICA I - Mário 31 2- Resultado da prova de Português das 3 séries do ensino médio da escola X, novembro de 2003. Séries X S CV 1ª 26 5 19% 2ª 15 3 20% 3ª 12 8 66% Observe que a 1ª série é menos heterogênea, pois apresenta menor CV. MEDIDAS DE ASSIMETRIA E CURTOSE As distribuições de freqüência não diferem apenas quanto ao valos médio e à variabilidade, mas também quanto à sua forma, ou seja: o grau de deformidade ou assimetria e o grau de achatamento ou afilamento da curva de freqüência ou do histograma. leptocúrtica (menos heterogênea) mesocúrtica Coeficiente para avaliar o grua de CURTOSE. Q3 - Q1 K = 2( P90 - P10) Se K = 0,263 a curva da distribuição é mesocúrtica - ESTATÍSTICA I - Mário 32 K 0,263 a curva da distribuição é platicúrtica. K 0,263 a curva da distribuição é leptocúrtica. EXEMPLO Resultado da prova de Estatística da Escola X, dezembro de 2002. Pontos F 20 30 25 30 40 85 40 50 155 50 60 180 60 70 45 70 80 10 total 500 Note que Q1 = 40,97 Q3 = 56,11 P10 = 32,94 P90 = 61,11 Logo K = 56,11 - 40,97 = 0,2687. Portanto a curva é platicúrtica, logo indica 2( 61,11 - 32,94) heterogeneidade. EXERCÍCIOS 1- Calcule o desvio-padrão dos seguintes dados, de pesos em Kg, de dois grupos ( A e B) de alunos, dizendo com base nestes cálculos, qual grupo é menos heterogêneo, ( ou menos disperso) GRUPO A: 43, 45, 52, 54, 56 GRUPO B: 46, 52, 58, 60, 66 2- Dados os seguintes conjuntos de números A = 1, 2, 3 B = 10, 20, 30 Calcule a dispersão absoluta (desvio-padrão) e a dispersão relativa (coeficiente de variação) dos dois conjuntos e analise o resultado encontrado. 3- A tabela abaixo mostra uma distribuição de freqüência das idades de 87 funcionários da empresa Y. - ESTATÍSTICA I - Mário 33 IDADE(anos) Nº de funcion. 18 22 12 22 26 18 26 30 15 30 34 25 34 38 10 38 42 5 42 46 2 TOTAL 87 Fonte: Departamento pessoal da empresa Y Pede-se a) a amplitude total da distribuição b) o desvio médio c) a variância d) o desvio-padrão e) a idade na qual 75% dos funcionários estão abaixo dela. f) A idade na qual 3/4 dos funcionários estão acima dela. g) A idade no qual 4/10 dos funcionários se encontram acima dela. h) O grau de assimetria i) Discutir quanto ao grau de heterogeneidade: mesocúrtica, platicúrtica ou leptocúrtica. 4- Numa escola, a média da turma A é 35 e o desvio-padrão é 10, a média da turma B é 35 e o desvio- padrão é 2,5. Qual das 2 turmas apresentou resultados menos heterogêneos? Porque? TRIÂNGULO DE PASCAL. Números Combinatórios n Ou binomiais p n! = Cn,p = p!.(n-p)! - ESTATÍSTICA I - Mário 34 P=0 P=1 P=2 P=3 P=4 P=5 P=6 n=0 0 0 n=1 1 0 1 1 n=2 2 0 2 1 2 2 n=3 3 0 3 1 3 2 n=4 4 0 4 1 4 2 4 3 4 4 n=5 5 0 5 1 5 2 5 3 5 4 5 5 n=6 6 0 6 1 6 2 6 3 6 4 6 5 6 6 n n 0 n 1 n 2 n 3 n 4 n 5 n 6 3 3 ... n n Substituindo-se cada número combinatório pelo respectivo valor, o triângulo de Pascal fica assim: - ESTATÍSTICA I - Mário 35 P=0 P=1 P=2 P=3 n=0 1 n=1 1 1 n=2 1 2 1 n=3 1 3 3 1 n=4 1 4 6 4 1 n=5 1 5 10 10 5 1 n=6 1 6 15 20 15 6 P=4 P=5 1 Observe que o triângulo de Pascal continua infinitamente, à medida que vai aumentando o valor de n. EXERCÍCIOS PROPOSTOS: 1) Analise cada uma das linhas do triângulo de Pascal. a) Quais são o primeiro e o último elemento de cada linha? Qual a lógica disso? b) O que você observa comparando o primeiro com o último elemento, o segundo com o penúltimo, ...? c) É possível a igualdade abaixo para p 5? 12 p = 12 5 Em caso afirmativo, para que valor de p? 2) a) Tome dois elementos consecutivos quaisquer de uma linha do triângulo de Pascal e calcule sua soma. Veja se essa soma aparece como um dos elementos da linha seguinte. Faça isso várias vezes e tire uma conclusão. b) O triângulo de Pascal que aparece no texto vai até a linha em que n = 6. A partir do que você concluiu no item anterior, construa as quatro próximas linhas do triângulo. 3) Um grupo tem 7 pessoas, entre as quais o indivíduo A. Deseja-se formar, a partir desse grupo, uma comissão de 4 pessoas. a) De quantas formas a comissão pode ser formada? b) Em quantas dessas comissões A aparece necessariamente? c) Em quantas dessas comissões A não aparece? d) Que relação existe entre os resultados obtidos nos três itens anteriores? - ESTATÍSTICA I - Mário 36 e) Expresse o resultado do item anterior, utilizando números combinatórios. f) Sem efetuar os cálculos, indique os números combinatórios obtidos como resultados das somas. 10 3 + 10 4 e 12 4 + 12 5 + 13 6 4) Calcule a soma dos elementos de cada linha do triângulo de Pascal. a) O que você observa? b) Qual será a soma dos elementos de n = 8? E da linha n = 10? E da linha n = 11? c) Generalize, calculando o valor da soma. n 0 + n 1 + n 2 + n 3 + ... + n + n–1 n n PROBABILIDADE INTRODUÇÃO: Basicamente existem dois tipos de experimentos: experimentos determinísticos experimentos aleatórios Os experimentos determinísticos nos permite prever os resultados, sem que tenhamos que realizar estes experimentos. EXEMPLOS: a) O tempo gasto de ir de uma cidade A, a outra B, com uma velocidade média constante. b) A queda livre de um corpo. Considerando também os experimentos: a) lançamento de uma moeda e leitura da face voltada para cima; b) lançamento de um dado, não viciado, e leitura do número voltado para cima; c) nascimento de um criança. Se esses experimentos forem repetidos várias vezes, nas mesmas condições, não poderemos prever o seu resultado. Experimentos que, ao serem realizados repetidas vezes, nas mesmas condições, apresentarem resultados variados, não sendo possível, portanto, a previsão lógica dos resultados, são denominados experimentos aleatórios. - ESTATÍSTICA I - Mário 37 Os experimentos aleatórios estão sujeitos ao acaso, embora se conheçam os possíveis resultados. Nosso objetivo é aprender a calcular a probabilidade ou chance de se obter, em um experimento aleatório, um determinado resultado. Num problema de cálculo de probabilidade, devemos levar em conta os resultados possíveis (Espaço amostral U) e os resultados desejados (evento) de um experimento. No lançamento de um dado, por exemplo, podemos estar interessados em calcular a probabilidade de se obter um número menor do que 3. Nesse experimento, temos: Espaço amostral: U = {1, 2, 3, 4, 5, 6} (resultados possíveis) Evento E: {1, 2} (resultado desejados). Neste caso todos os resultados possíveis têm a mesma chance de ocorrer, e são estes os experimentos alvos de nosso estudo em probabilidade. Dizemos, no caso, que os resultados possíveis são equiprováveis. A probabilidade P(E) de ocorrer um evento E, no caso de resultados equiprováveis é: P(E) = número de resultados desejados número de resultados possíveis No cálculo de probabilidades, existem dois casos extremos. Se E é um evento impossível de acontecer, P(E) = 0 ou P(E) = 0%. Se E é um evento certo, ou seja, que ocorrerá com certeza, P(E) = 1 ou P(E) = 100% Vejamos! No lançamento de um dado, qual a probabilidade do resultado ser 7? E a probabilidade do resultado ser um número menor ou igual a 6? No lançamento do dado, é verdade que impossível de se obter o número 7, portanto o evento é impossível e P(E) = 0 ou P(E) = 0%. Enquanto que para se obter um número menor ou igual a 6, este resultado ocorrerá com certeza, portanto o evento é certo e P(E) = 1 ou P(E) = 100%. Pode-se concluir, portanto, que a probabilidade P(E) de ocorrer um evento (fato) E é um número real que pode variar de 0 até 1 ou, em percentagem, de 0% (evento impossível) até 100% (evento certo). 0 P(E) 1 ou 0% P(E) 100% EXERCÍCIOS RESOLVIDOS: 1) No lançamento de um dado, determine a probabilidade de se obter. - ESTATÍSTICA I - Mário 38 a) O número 5 b) Um número primo c) Um número múltiplo de 3 Solução O espaço amostral é U = {1, 2, 3, 4, 5, 6}, portanto n(U) = 6. a) Ocorrência do número 2: A = {2}, portanto n (A) = 1 P(A) = n(A) = 1 = 0,1667 ou P(A) = 16,67% n(u) 6 b) Ocorrência de um número primo: B = {2, 3, 5}, portanto n(B) = 3 P(B) = n(B) = 3 = 1 = 0,5 ou P(B) = 50% n(u) 6 2 c) Ocorrência de um número múltiplo de 3: C = {3, 6}, portanto n(C) = 2 P(C) = n(C) = 2 = 1 = 0,3333 ou P(C) = 33,33% n(u) 6 3 2) De um baralho com 52 cartas tiram-se, sucessivamente, sem reposição, duas cartas. Determine a possibilidade dos eventos: a) as duas cartas são ases. b) as duas cartas são de copas. Solução a) Calculando o número de elementos do espaço amostral, teremos: 1ª possibilidade 2ª possibilidade 52 51 Logo n(u) = 52 . 51 = 2652 Calculando o número de elementos do evento A, teremos: Temos 4 ases, portanto A4,2 = 4 . 3 . 2! = 12 2! Portanto: P(A) = n(A) = 12 = 1 . n(u) 2652 221 b) Calculando o número de elementos do evento B, teremos: 1ª carta de copas 2ª carta de copas 13 12 n(B) = 13 . 12 = 156 ou A13,2 = 13 . 12 . 11! = 156 - ESTATÍSTICA I - Mário 39 11! Portanto: P(A) = n(B) = 156 = 13 = 1 n(u) 2652 221 17 3) Consideramos um conjunto de 10 frutas, das quais 3 estão estragadas. Escolhendo aleatoriamente 2 frutas desse conjunto, determinar a probabilidade de que: a) ambas não estejam estragadas. b) pelo menos uma esteja estragada. Solução Cálculo do número de maneiras que duas frutas podem ser escolhidas. n(u) = C10,2 = 10! = 10 . 9 . 8! = 45 maneiras 2!8! 21 . 8! a) Cálculo do número de maneiras que duas frutas não estragadas podem ser escolhidas. n(A) = C7,2 = 7! = 7. 6. 5! = 21 maneiras 2!5! 2. 1. 5! Portanto: n(A) = 21 = 7 n(u) 45 15 b) Cálculo de pelo menos uma seja estragada, que pode ser: uma estragada e uma boa. C3,1 x C7,1 = 3. 7 = 21 ou as duas sejam estragadas. C3,2 = 3 Logo: n(B) = C3,1 . C7,1 + C3,2 = 3. 7 + 3 = 24 Portanto: P(B) = n(B) = 24 = 8 n(u) 45 15 OBSERVAÇÃO: Este cálculos, no item b, poderiam ser efetuados de uma outra maneira, bem particular. Note que os eventos A: ambas não estejam estragadas e B: pelo menos uma esteja estragada são mutuamente exclusivos (disjuntos) e a união dos eventos nos dá o espaço amostral U: 10 frutas, das quais 3 estão estragadas. Conclui-se que o evento B é complementar do evento A e representamos por A C ou A . Logo P(A) + P(B) = 1 P(A) + P(A) = 1 P(A) = 1 – P(A) Portanto: P(B) = P(A) = 1 – 7 = 8 15 15 - ESTATÍSTICA I - Mário 40 EXERCÍCIOS PROPOSTOS: 1) a) b) c) d) Determine a probabilidade de: Obter um número menor que 3 no lançamento de um dado. Acertar um jogo da loteria esportiva com um palpite duplo. Os 3 filhos de um casal serem meninos. Somar 5 no lançamento simultâneo de 2 dados diferentes. 2) Qual a probabilidade do evento certo? E do evento impossível? 3) Qual a probabilidade de acertarmos uma quadra com um prognóstico simples de 6 números na loto? 4) Os eventos A e A são complementares. Sendo P(A) = 0,3, calcule P(A). 5) Uma urna tem 3 bolas brancas e 4 azuis. Retirando ao acaso 2 bolas, qual a probabilidade de ambas serem brancas? 6) Dentre 5 pessoas, será escolhida, por sorteio uma comissão de 3 membros. Qual a probabilidade de que uma determinada pessoa venha a figurar na comissão? 7) Qual a probabilidade de obter, no lançamento de 1 dado, um número par ou um número maior ou igual a 4? 8) Dentre 100 leitores dos jornais A e B, 40 lêem o jornal A e 70 lêem o jornal B. Qual a probabilidade de que 1 leitor leia os jornais A e B? 9) Retirando com reposição, 3 cartas de um baralho de 52 cartas, onde há 4 reis, qual a probabilidade de que saiam 3 reis? 10) Retirando, sem reposição, 3 cartas de um baralho de 52 cartas, onde 13 são de paus, qual a probabilidade de que sejam de paus as 3 cartas? 11) Em uma urna há 4 bolas verdes e 6 amarelas. Retirando 2 bolas, sem reposição, determine a probabilidade de: a) Ambas serem verde. b) Ambas serem amarelas. c) A 1ª ser verde e a 2ª amarela. 12) Qual a probabilidade de acertar os 13 jogos da loteria esportiva: a) Apenas utilizando palpites simples? b) Utilizando palpites duplos nos 3 primeiros jogos? c) Utilizando palpites triplos nos 2 primeiros jogos e duplos nos 3 jogos seguintes? 13) Uma gaveta tem 5 pares de meias verdes e 3 pares de meias azuis. São tiradas 2 meias ao acaso. Qual a probabilidade de se formar: a) Um par verde? - ESTATÍSTICA I - Mário 41 b) Um par com meias de mesma cor? c) Um par com meias de cores diferentes? - ESTATÍSTICA I - Mário 42 VARIÁVEIS ALEATÓRIAS O que se entende por variável aleatória? Até agora nossos estudos estavam praticamente voltados mais para definirmos nosso Espaço Amostral U, sem associarmos suas respectivas probabilidades aos experimentos aleatórios. Existem, contudo, experimentos cujos resultados podem ser expressos por quantidades numéricas. Ou ainda, por vezes, desejamos atribuir um valor específico a cada resultado do experimento aleatório. Quando realizamos a observação dos resultados de um experimento que pode ser resultado repetidamente sob condições essencialmente inalteradas (experimento aleatório), não poderemos, de antemão, dizer qual particular resultado irá ocorrer na próxima tentativa, muito embora sejamos capazes de descrever o conjunto de todos os possíveis resultados do experimento. Assim, por exemplo, antes de lançar um dado poderemos descrever que os possíveis resultados são: l, 2, 3, 4, 5, 6, mas qual desses, em particular, irá ocorrer, no próximo lançamento é impossível predizer com absoluta certeza. Variável aleatória é, pois o resultado da observação de experimentos não determinísticos. Entretanto o resultado de um experimento não é necessariamente, um número. De fato na observação das peças que saem de uma máquina poderemos, simplesmente, anotar as categorias "defeituosas" ou "não defeituosas". Contudo, em muitas situações experimentais, estamos interessados na mensuração de alguma coisa e no seu registro como um número. Mesmo no exemplo acima, poderemos atribuir um número a cada resultado (não numérico) do experimento. U: observação das peças (telhas) que saem de uma máquina X número de peças defeituosas X = 0, 1, 2, 3, .....................,n Portanto, chama-se variável aleatória a uma variável cujo valor é um número determinado pelo resultado de um experimento ou através da observação, e aos quais podemos associar probabilidade. As variáveis aleatórias podem ser classificadas em: 1- VARIÁVEIS ALEATÓRIAS DISCRETA Seja X uma variável aleatória que assume os valores x1, x2, x3, ...........xn. Diremos que X é uma variável aleatória discreta. Se o número de valores tomados por X é finito ou infinito numerável. Exemplo: U: Lançamento de quatro moedas Seja, X: o número de caras observadas. X = 0, 1, 2, 3, 4 De modo geral podemos dizer que as variáveis aleatórias discretas são as que resultem de contagens. 2- VARIÁVEIS ALEATÓRIAS CONTÍNUAS Seja X uma variável aleatória que pode assumir qualquer valor num intervalo, diremos que X é uma variável aleatória contínua. Exemplos: a) Número de horas de duração de uma lâmpada b) A altura de um indivíduo que pode ser: 1,65m, l,652m, 1,6524m, conforme a precisão de medida. - ESTATÍSTICA I - Mário 43 De modo geral podemos afirmar que as variáveis aleatórias contínuas são aquelas que resultem de "medição", em especial, de tempo, temperatura, comprimento, peso, volume, etc. Um aspecto interessante é o que o mesmo experimento pode dar margem à observações de várias variáveis, e a escolha da que vai ser observada fica a critério do observador. Como exemplo vejamos o experimento "jogar 4 moedas simultaneamente". Como variável aleatória poderemos escolher "o número de caras obtidas ou a distância mínima entre 2 moedas". A primeira seria uma variável aleatória discreta e a Segunda seria uma variável aleatória contínua. 1- VARIÁVEL ALEATÓRIA DISCRETA 1.1- FUNÇÃO DE PROBABILIDADE A probabilidade de que a variável aleatória assuma o valor X, é a função de probabilidade de X que representamos por P(X = xi) ou simplesmente por P(X). f(x) = 0 se X xi n f(xi) = 1 f(x) = P(X = xi) i=1 Portanto a função que associa probabilidade aos possíveis valores de uma variável aleatória, denomina-se função de probabilidade. A função P(X) pode ser expressa por uma tabela ou gráfico Exemplo Seja E: o espaço amostral no lançamento de 2 moedas e X: o número de caras C obtidas. Isto é: E = (K,K); (K,C); (C,K); (C,C) X = 0, 1, 2 TABELA: X 0 1 2 P(X) 1/4 1/2 1/4 GRÁFICO: P(X) 1/2 1/4 0 1 2 X 1.2- FUNÇÃO REPARTIÇÃO Define-se função repartição da variável aleatória X, no ponto x, como sendo a probabilidade de que x assuma um valor menor ou igual a X, isto é: F(X) = P(X x). No exemplo acima teremos: - ESTATÍSTICA I - Mário 44 F(X) = 1/4 se x 0 F(X) = 1/2 se 1 x 2 F(X) = 1/4 se x 2 2- VARIÁVEL ALEATÓRIA CONTÍNUA 2.1- FUNÇÃO DENSIDADE DE PROBABILIDADE Seja X uma variável aleatória contínua. A função densidade de probabilidade f(x) é uma função que satisfaz as seguintes condições. f(x) 0 f(x).d(x) = 1 b Assim P( a x b) = f(x).d(x) a 2.2- FUNÇÃO REPARTIÇÃO F(X) = P(X x) = P( -oo x +oo) = +oo f(x).dx -oo = 1 Seja X uma variável aleatória contínua com a seguinte função densidade de probabilidade. f(x) = 2x 0 para para (qualquer) outro valor para x 0 f(x) = 0 x 1 F(x) = 0 para 0 x 1 F(x) = 2x.dx = 2x2 x 0 para x 1 2 0 F(x) = 1 Representação gráfica F(x) 1 1 x - ESTATÍSTICA I - Mário = x2 45 Exemplo/Exercício Seja f(x) = 3/2 (1 - x2 ), 0 x 1 0, caso contrário Ache a função repartição e esboce o gráfico. 3- DISTRIBUIÇÃO DISCRETAS DE PROBABILIDADES 3.1- DISTRIBUIÇÃO DE PROBABILIDADE No contexto das distribuições de probabilidades, os valores individuais de probabilidades podem ser designados pelo símbolo f(x), que enfatiza a existência de uma função matemática (variáveis contínuas). Por P(X = x), que enfatiza que a variável aleatória pode assumir diversos valores, ou simplesmente por P(X). Para uma variável aleatória discreta todos os possíveis valores da variável aleatória podem ser listados numa tabela com as probabilidades correspondentes: distribuição de probabilidade Binomial, Hipergeométrica e de Poisson. Para uma variável aleatória contínua não podem ser listados todos os possíveis valores fracionários da variável, e desta forma as probabilidades são determinadas por uma função matemática, são retratadas, tipicamente, por uma função densidade ou por uma curva de probabilidade. 3.2 VALOR DISCRETAS. ESPERADO E VARIÂNCIA DE VARIÁVEIS ALEATÓRIAS n Média, Valor Esperado ou Esperança Matemática: = E(X) = xi.P(xi) i=1 3.3 PROPRIEDADES DA ESPERANÇA MATEMÁTICA: - ESTATÍSTICA I - Mário 46 3.3.1- A média de uma constante é a própria constante E(X) = k.P(xi) = k. P(xi) = k 3.3.2- A média de uma variável multiplicada por uma constante é igual à constante multiplicada pela média da variável. E(k.X) = k.xi.P(xi) = k. xi.P(xi) = k.E(xi) 3.3.3- A média da soma ou da diferença é a soma ou diferença das médias. E( X + Y) = E( X ) + E( Y ) ou E(X - Y) = E(X) - E(Y) 3.3.4- Somando ou subtraindo uma constante a uma variável aleatória, a sua média fica somada ou subtraída da mesma constante. E(X + k) = E(X) + E(k) = E(X) + k ou E(X- k) = E(X) - k 3.3.5- A média do produto de duas variáveis aleatórias independentes é o produto das médias. E(X.Y) = xi.yj.P(xiyj) = xi.yi.P(xi).P(yj) = xi.P(xi). yj.P(yj) = E(X).E(Y) 3.4- VARIÂNCIA A forma geral de desvios para a fórmula da variância de uma distribuição discreta de probabilidade é: V(X) = 2(X) = xi - E(X)2.p(xi) ou V(X) = 2(X) = E(X2) - E(X)2 ( Fórmula Computacional) 3.5- PROPRIEDADE DA VARIÂNCIA 3.5.1- A variância de uma constante é zero 2(X) = V(k) = E k - E(k)2 = E(k - k)2 = 0 3.5.2- Multiplicando-se uma variável aleatória por uma constante, sua variância fica multiplicada pelo quadrado da constante. V(k.X) = 2(k.X) = kX - E(k.X)2 = k.X - k.E(X)2 = k(X - E(X)2 = k2.X - E(X)2 = k2.V(X) 3.5.3- Somando-se ou subtraindo-se uma constante à variável aleatória, sua variância não se altera. 2(X + k) = 2(X) + 2(k) = 2(X) + 0 = 2(X) 3.5.4- A variância da soma ou da diferença de duas variáveis aleatórias independentes é a soma das respectivas variâncias. - ESTATÍSTICA I - Mário 47 2(X +Y) = 2(X) + 2(Y) e 2(X - Y) = 2(X) + 2(-Y) = 2(X) + (-1)2.2(X) = 2(X) + 2(Y) EXEMPLO: A tabela abaixo está registrado o número de caminhonetes solicitadas em uma agência de aluguel de carros durante um período de 50 dias. Demanda possível X Nº de dias Probabilidade Valor Ponde- Demanda ao Quad. PondeP(X) rado X:P(X) quadrado X2 rado X2.P(X) 3 3 0,06 = 3/50 0,18 9 0,54 4 7 0,14 = 7/50 0,56 16 2,24 5 12 0,24 1,20 25 6,00 6 14 0,28 1,68 36 10,08 7 10 0,20 1,40 49 9,80 8 4 0,08 0,64 64 5,12 TOTAL 50 1,00 E(X) = 5,66 E(X2) = 33,78 OBS. A probabilidade de serem solicitadas exatamente sete (7) caminhonetes em um determinado dia aleatoriamente escolhido no período é de 0,20 e de cinco (5) é de 0,24. Determine: a) A esperança matemática b) A variância, cálculo computacional. a) E(X) = 5,66 Isto é, o valor esperado para dados discretos pode ser fracionário porque ele representa um valor médio de longo prazo e não o valor específico para qualquer observação dada. c) V(X) = 2(X) = E(X2) - E(X)2 = 33,78 - (5,66)2 = 33,78 - 32,04 = 1,74 Isto é a variação do número de caminhonetes em torno da média ao quadrado é de 1,74. Exercícios 1- Um dentista tem 5 cadeiras disponíveis para pacientes em sua sala de espera. A probabilidade do número de cadeiras ocupadas X é dada por: - ESTATÍSTICA I - Mário 48 X P(X) 0 0,304 1 0,228 2 0,171 3 0,128 4 0,096 5 0,073 a) Ache a média E(X) = da variável aleatória X. E(x) = 1,7 b) Calcule a variância e o desvio padrão, da variável aleatória X. 2,53 V(X) = c) Calcule P( 2 X 5). 0.468 d) Desenvolva no formato tabular a cdf ( Função de Distribuição Acumulada) dessa distribuição. e) Desenvolva a função repartição dessa distribuição. 2- Considere uma moeda perfeita lançada 3 vezes. Seja X o número de caras obtida. Calcule a) a distribuição de X b) média de X E(x) = 1,5 c) a variância ² = 0,75 3- Considere uma urna contendo três bolas vermelhas e cinco pretas. Retire três bolas sem reposição, e defina a V.A X igual a número de bolas pretas. a) Obtenha a distribuição de X b) Obtenha a média e a variância da V.A X E(X) =1,875 ² = 0,502 4- Uma moeda é lançada 4 vezes. Seja Y o número de caras obtidas. Calcule a) a distribuição de Y = 2 , ² = 1 b) a média e variância de Y - ESTATÍSTICA I - Mário 49 5- Considere uma mesa contendo 10 frutas das quais 4 estão estragadas. Retire três dessas frutas ao acaso, sem reposição e defina a V.A. X igual a número de frutas estragadas. a) Obtenha a distribuição de X = 1,2 b) Obtenha a média e a variância da V.A. , ² = 0,560 4-DISTRIBUIÇÃO BINOMIAL 4.1- INTRODUÇÃO: DISTRIBUIÇÃO DE BERNOULLI Seja um experimento que consiste na realização de uma prova, cujos resultados só podem ser "sucesso" ou "fracasso". Observando ainda que na realização desta prova os eventos são independentes, vamos chamar de X uma variável aleatória que de acordo com a pressuposição citada, somente assumirá valores 0 e 1, sendo 0 a ocorrência do evento "fracasso" e 1 a ocorrência do evento "sucesso" com probabilidades P(X = 0) = q X 0 P(X = 1) = p P(X) q 1 p+ q = 1 p q = 1 - p Obs. q = l- p é complementar de p, pois p + q = 1. 2- E(X) = xi.p(xi) = 0.q + 1.p = p E(X) = p 3- V(X) = E(X2) - E(X)2 = 02.q + 12.p - p2 = p - p2 = p(1 - p) = p.q V(X) = p.q Consideremos que: a) n provas independentes e do mesmo tipo são realizadas. b) Cada prova é uma prova de Bernoulli ou seja, admite dois resultados: sucesso ou fracasso que são mutuamente exclusivos. c) A probabilidade de sucesso ou fracasso é a mesma em cada prova, isto é, constantes. d) p é a probabilidade de sucesso em cada prova e q = 1 - p a ocorrência do fracasso. 4.2- DISTRIBUIÇÃO BINOMIAL - ESTATÍSTICA I - Mário 50 Se p é a probabilidade de um evento acontecer em uma tentativa única (sucesso), e q = 1 - p é a probabilidade de que o evento não ocorra (insucesso), então a probabilidade do evento ocorrer exatamente x vezes em n tentativas, isto é, de que haja X sucessos e n - x insucesso, é dado por: P(X = x) = n x p x . qn - x PARÂMETROS DA DISTRIBUIÇÃO BINOMIAL Baseados na propriedades da E(X) e V(X) e como a variável binomial X é uma soma de variáveis independentes do tipo Bernoulli, teremos que: E(X) = E( x1 + x2 + x3 + ........+ xn) = E(x1) + E(x2) + E(x3) +........+ E(xn) = np V(X) = V(x1 + x2 + x3 + ........+ xn) = V(x1) + V(x2) + V(x3) + ......+ V(xn) = p.q + p.q + p.q + .........+ p.q = n.pq. = n.p.(1 - p) FÓRMULAS: E(X) = xi.p(xi) P(X = xi) = n . pxi.(1 - p) n - xi xi E(X) = xi. n .pxi. (1 - p)n - xi xi V(X) = (xi – E(X))².p(xi) APLICAÇÕES 1- Em uma fábrica de parafusos um terço da produção é defeituosa. Em uma amostra de 6 parafusos, pergunta-se a) Qual a probabilidade de que não tenham nenhum defeituoso? b) Qual a probabilidade de que o número de parafusos defeituosos seja no máximo 2? c) Qual o número esperado de parafusos defeituosos? - ESTATÍSTICA I - Mário 51 d) Qual a dispersão em torno do número esperado de parafusos defeituosos? Solução defeituosos X = 0, 1, 2, 3, 4, 5, 6 a) P(X = 0) = 6 . (1/3) 0.(2/3)6-0 = (2/3)6 = 64/729 0 b) P(X 2) = P(X = 0) + P(X = 1) + P(X = 2) = 64 / 729 + 192 / 729 + 240 / 729 = = 496 / 729 = 68% c) E(X) = xi.P(xi) = 0.64 / 729 + 1.192 / 729 + 2.240 / 729 + 3.160 / 729 + 4.60 / 729 5.12 / 729 + 6.1 / 729 E(X) = 2 defeituosos ou E(X) = n.p = 6.1/3 = 2 defeituosos d) V(X) = 2(X) = E(X2) - E(X)2 V(X) = 02.64/729 + 12.192/729 + 22.240/729 + 32.160/729 + 42.60/729 + 52.12/729 + 62.1/729 = 5,33 V(X) = 5,33 - 22 = 1,33 1,15 ou V(X) = n.p.q = 6.1/3.2/3 = 1,33 = 1,33 = 2- Num hospital 5 pacientes devem submeter-se a um tipo de operação da qual 80% sobrevivem. Qual a probabilidade de que: a) Todos sobrevivem R 32,775 b) Pelos menos dois sobrevivem R 99,33% c) No máximo 3 não consigam sobreviver. R 99,33% d) Qual é o número esperado de sobreviventes? R 4 sobreviventes 3- Se 2/3 da população de certo município não assistem regularmente a programas de televisão e, colocando 250 pesquisadores cada um entrevistando 8 pessoas, estimar quantos desse pesquisadores informarão que até 2 das pessoas consultadas são telespectadores habituais. Solução - ESTATÍSTICA I - Mário 52 X . Assistem regularmente televisão p = 1/3 q = 2/3 X = 0, 1, 2 P(X=0) = 8 .(1/3)0.(2/3)8 = 256/6561 0 P(X=1) = 8 .(1/3)1.(2/3)7 = 1024/6561 P(X 2) = 256 + 1024 + 1792 1 6561 P(X=2) = 8 .(1/3)2.(2/3)6 = 1792/6561 P(X) = 3072 = 46,82% 2 6561 Logo E(X) = n.p 250.(3072/6561) = 117,055 117 pesquisadores. 4- DISTRIBUIÇÃO HIPERGEOMÉTRICA Quando a amostragem se faz sem reposição de cada item amostrado de uma população finita, não se pode aplicar o processo de Bernoulli, uma vez que exite uma mudança sistemática na probabilidade de sucesso á medida que os itens são retirados da população. A distribuição Hipergeométrica é uma distribuição discreta de probabilidade apropriada quando existe amostragem sem reposição em uma situação que, se não fosse por isso, seria um processo de Bernoulli. Suponha-se que tenhamos um lote de N peças e M das quais são defeituosas. Suponha-se que escolhemos, ao acaso n peças desse lote ( n N); sem reposição. Seja X o número de peças defeituosas encontradas. Desde que X = x se, e somente se, obtivermos exatamente k peças defeituosas ( dentre as M defeituosas do lote) e exatamente ( n - x) não defeituosas ( dentre as N - M não defeituosas do lote, teremos: P(X = x) = M x N-M . n-x N n PARÂMETROS DA DISTRIBUIÇÃO HIPERGEOMÉTRICA E(X) = n.p - ESTATÍSTICA I - Mário 53 V(X) = 2(X) = n.p.q. N-n N-1 E(x) = xi.p(xi) = xi. M x N-M n-x (*) N n APLICAÇÕES 1- Em uma sala há 6 homens e 5 mulheres. Uma comissão de 4 pessoas é formada ao acaso. Qual a probabilidade de que: a) apareçam 3 homens na comissão, b) não apareça nenhum homem, c) Qual o número esperado de homens na comissão e o número de mulheres? Solução a) N = 11 (total de pessoas) n = 4 ( número de pessoas na comissão) M = 6 ( quantidade de homens) N - M = 5 ( quantidade de mulheres) x = 3 (quantidade de homens na comissão) 6 5 P(X = 3) = 3 1 = 20.5/330 = 10 / 33 11 4 b) P(X = 0) = 6 0 5 4 = 1.5 / 330 = 1 / 66 11 4 c) E(X) = E(x) = 4.6/11 = 24/11 = 2,l8 2 homens E(X) = E( N - x) = 4.5/11 = 20/11 2 mulheres Poderia calcular E(X) usando a fórmula (*). 2- Uma caixa contém 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6 lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que: - ESTATÍSTICA I - Mário 54 a) b) c) d) exatamente duas estejam queimadas? Pelo menos uma seja boa? Pelo menos duas estejam queimadas? Encontre o número esperado de lâmpadas queimadas e a dispersão em torno da média. Solução X: lâmpadas queimadas M: total de lâmpadas queimadas = 5 k: lâmpadas queimadas (ao acaso) n: número de lâmpadas (ao acaso) = 6 N: total de lâmpadas = 12. 5 a) P(X=2) = 2 7 4 = 10.35/924 = 350/924 12 6 b) X = 0, 1, 2, 3, 4, 5 P(X 5) = P(0) + P(1) + P(2) + P(3) + P(4) + P(5) = 5 7 5 7 5 7 5 7 5 0 6 + 1 5 + 2 4 + 3 3 + 4 12 6 12 6 12 6 12 6 7 2 5 + 5 12 6 7 1 12 6 = 7/924 + 105/924 + 350/924 + 350/924 + 105/924 + 7/924 = 924/924 = 1 = 100% c) P(X 2) = p(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) = 350 + 350 + 105 + 7 = 812 / 924 = 87,88% 924 d) E(X) = n.p = 6.5/12 = 2,5 2 lâmpadas queimadas 2(X) = V(X) = n.p.q. N - n = 6. 5/12. 7/12. 12 - 6 N-1 12 - 1 2(X) = 0,795 = 0,89 1 lâmpada 5-DISTRIBUIÇÃO DE POISSON - ESTATÍSTICA I - Mário = 0,795 55 A distribuição de Poisson pode ser usada par determinar a probabilidade de um dado número de sucessos quando os eventos ocorrem em um continuum de tempo ou espaço. Tal processo, chamado de processo de Poisson é similar ao processo de Bernoulli, exceto que os eventos ocorrem em um continuum ao invés de ocorrerem em tentativas ou observações fixadas. Um exemplo de tal processo é a chegada de chamadas em uma central telefônica. Tal como no caso do processo de Bernoulli, supõe-se que os eventos são independentes e que o processo é estacionário (a média não altera dentro da especificação). Somente um valor é necessário para determinar a probabilidade de um dado número de sucessos em um processo de Poisson: o número médio de sucessos para a específica dimensão de tempo ou espaço de interesse. Este número médio é geralmente representado por ou . A fórmula para determinar a probabilidade de um dado número X de sucessos em uma distribuição de Poisson é: P(X / ) = X.e- e = 2,71828........ X! PARÂMETRO DA DISTRIBUIÇÃO DE POISSON E(X) = e V(X) = 2 = EXEMPLOS 1- Em um cruzamento de 2 ruas o número médio de acidentes é igual a 2 semanais. Determinar a) a probabilidade de que uma determinada semana ocorram 3 acidentes. b) A probabilidade de que não ocorra nenhum acidente c) A probabilidade de que ocorra acidente. Solução X = 0, 1, 2, 3, ......., n a) P(X = 3) = 23.e-2 = 8/6.2,7183-2 = 4/3.0,13534 = 0,18 = 18% 3! b) P(X = 0) = 20.e-2 = 0,13534 = 13,53% 0! d) P(X 1) = 1 - P(X = 0) = 1 - 0,13534 = 0,86466 = 86,47% - ESTATÍSTICA I - Mário 56 2- Um departamento de conserto de máquinas recebe uma média de cinco chamadas por hora. A probabilidade de que menos do que três chamadas sejam recebidas durante uma hora aleatoriamente escolhida é: P(X < 3) / = 5) = P(X 2) = P(X = 0) + P(X = 1) + P(X = 2) = 50.e-5 + 51.e-5 0! 1! + 52.e-5 2! = 0,0067 + 0,0337 + 0,0842 = 0,1248 = 12,5% EXERCÍCIOS DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADES 1- Descobriu-se que a chegada de clientes a um Banco, durante intervalos aleatoriamente escolhidos de 10minutos, segue a distribuição de probabilidade da tabela, abaixo. Calcular o número esperado de chegadas por intervalo de 10 minutos bem como calcular a variância das chegadas. E(X) = 2, V(X) = 1,9 Nº de chegadas X Probabilida -de P(X) 0 1 2 3 0,15 0,25 0,25 0,20 4 0,10 5 0,05 2- Em um levantamento recente, a probabilidade de que um acidente de carro é causado por um motorista embriagado é cerca de 0,229. Nos próximos três acidentes, qual a é probabilidade de que: a) exatamente um acidente seja causado por um motorista embriagado? b) No mínimo um acidente seja causado por um motorista embriagado? c) Se você tem os seguintes resultados de probabilidade de acidentes causados por motoristas embriagados nos 10 próximos acidentes: Pdf (*) Cdf (**) 0 0,0742 0,0742 1 0,2205 0,2947 2 0,2947 0,5893 3 0,2334 0,8227 4 0,1213 0,9440 5 0,0432 0,9873 6 0,0107 0,9980 7 0,0018 0,9998 8 0,0002 1,0000 9 0,0000 1,0000 10 0,0000 1,0000 (*) pdf - Probability Distribution Function (Função de Distribuição de Probabilidade) (**) Cdf - Cumulative Distribution Function ( Função de Distribuição Cumulativa) - ESTATÍSTICA I - Mário 57 1- ache P(x=3) 2- ache P(5 x 9) 3- qual é a média e a variância da distribuição tabulada acima? 23,34% 1,27% =2,29, ² =1,77 3- Existem 90% de probabilidade de que um certo tipo de componente se comporte de forma adequada sob condições de elevadas temperatura. Se o dispositivo em questão tem quatro de tais componentes, determinar, por meio da fórmula de probabilidades binomiais a probabilidade de cada um dos eventos. a) Todos os componentes se comportam de forma adequada, por conseguinte, o dispositivo funciona. 65,61% b) O dispositivo não funciona por falhar um dos quatro componentes. 29,16% c) O dispositivo não funciona por que falham um ou mais dos componentes. 34,39% 4-Suponha que 40% dos empregados horistas de uma grande empresa estejam a favor da representação sindical e que se peça uma resposta anônima a uma amostra aleatória de 10 empregados. Qual a probabilidade de estarem a favor da representação sindical: a) a maior parte dos que responderam? 16,08% b) Menos da metade dos que responderam? 63,92% 5- De 20 estudantes em uma classe, 15 não estão satisfeitos com o texto utilizado. Se uma amostra aleatória de quatro alunos se perguntar sobre o texto, determinar a probabilidade de que estivessem descontentes com o texto: a) exatamente três estudantes. 46,96% b) No mínimo três estudantes. 75,13% 6- Somente um de cada mil geradores montados em uma fábrica apresenta defeitos, sendo que os geradores defeituosos se distribuem aleatoriamente ao longo da produção. a) Qual a probabilidade de que um carregamento de 500 geradores não inclua gerador defeituoso algum? 60,65% b) Qual a probabilidade de um carregamento de 100 geradores contenha no mínimo um gerador defeituosos? 9,52% 7- Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se dez itens produzidos por essa máquina são selecionados ao acaso, qual a probabilidade de que não mais do que um defeituoso seja encontrado? Use a binomial e a distribuição de Poisson e compare os resultados. Pb = 37,58% e Pp = 40,6% 8- Num certo tipo de fabricação de fita magnética, ocorrem corte a uma taxa de um por 2000 pés. Qual a probabilidade de que um rolo com 2000 pés a fita magnética tenha: - ESTATÍSTICA I - Mário 58 a) nenhum 36,79% b) No 91,97% c) Pelo 26,42% corte? máximo 2 cortes? menos dois cortes? 9- Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson, com a média de 8 chamadas por minuto. Determinar a probabilidade de que num minuto aleatoriamente escolhido se tenha. a) três ou mais chamadas 98,62% b) menos do que 5 chamadas 9,96% c) entre 7 (inclusive) e nove (exclusive) chamadas. 27,92% 10- Uma máquina, fabrica placas de papelão que podem apresentar nenhum defeito, um, dois, três ou quatro defeitos, com probabilidade 90%, 5%, 3%, 1% e 1%, respectivamente. O preço de venda de uma placa perfeita é 10 u.m. e à medida que apresente defeito, o preço cai 50% para cada defeito apresentado. Qual o preço médio de venda destas placas? E(x) = 9,34 u.m 11- Uma empresa distribuidora costuma falhar em suas entregas de mercadorias 15% das vezes, pó atraso na entrega, mercadoria fora de especificação danos, etc. causando reclamações por parte dos clientes. Calcule a probabilidade de: 3- não ocorrer reclamações nas 10 entregas de hoje. R 19,69% 4- Acontecer pelo menos uma reclamação nas 4 primeiras entregas. R 47,80% 5- Acontecer no máximo uma reclamação nas 10 entregas. R 54,43% 12- Em um pedágio de determinada rodovia chegam em média 600 carros por hora. Determine a probabilidade de : a) chegarem exatamente 10 carros em um minuto R: 12,51% b) chegarem menos que 5 caros em um minuto R:2,92% - ESTATÍSTICA I - Mário