UNIVERSIDADE DE ENSINO E APRENDIZAGEM DE VIÇOSA Introdução a Estatística Profº. Ms. Antônio Marcos da Silva Belo Horizonte, 18 de janeiro de 2014 Principais objetivos: • Entender os princípios básicos da estatística: conjunto amostral, unidade amostral, porcentagem, média, desvio padrão, coeficiente de variação e probabilidade. • Saber manusear o aplicativo Excel, aprendendo a programá-lo para realizar as operações básicas da matemática/estatística para processamento dos dados estatísticos e apresentação dos resultados. Preliminares • POPULAÇÃO: é o conjunto de indivíduos (ou objetos), que tem pelo menos uma variável comum observável. • AMOSTRA: é qualquer sub-conjunto da população extraída para se realizar estudos estatísticos. • A estatística indutiva é a ciência que busca tirar conclusões probabilísticas sobre a população, com base em resultados verificados em amostras retiradas dessa população. • Dois aspectos nas amostras são fundamentais: - Qualitativos: Amostras que representem todas as sub-populações, quando for o caso. - Quantitativos: Que possua quantidade de dados suficientes para representar a população. • Amostragem é o ato de retirar amostra, isto é, a ação. • Amostra é a quantidade de dados especificado para representar a população. • Amostragem aleatória permite estimar o valor do erro possível, isto é, dizer “quão próxima” está à amostra da população, em termos de representatividade. • Amostragem não aleatória não apresenta esta característica. Elementos Básicos • Parâmetro: Medida numérica que descreve uma característica de uma população. São valores fixos, geralmente desconhecidos e usualmente representados por caracteres gregos. Por exemplo, μ (média populacional e σ (desvio-padrão populacional). • Estatística: Medida numérica que descreve uma característica de uma amostra. Representada por caracteres latinos. Por exemplo, X (média amostral), p (proporção amostral), s (desvio-padrão amostral). • Frequência: É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. Medidas de Posição (ou de Tendência Central) • A moda (ou modas) de um conjunto de valores é definida como o valor (ou valores) de máxima frequência. • Exemplo 1: Se as 5 observações de uma determinada variável forem 7, 3, 4, 8 e 8, a moda é o valor 8. • Exemplo 2: Suponha que o gráfico abaixo represente a quantidade de filhos dos empregados casados de uma determinada empresa (variável Z). Percebe-se que a moda nesse caso é 2. • A média simples é a soma das observações dividida pelo número delas. Exemplo 1: A média aritmética das observações 3, 4, 7, 8 e 8, é dada por (3 + 4 + 7 + 8 + 8)/5 = 6. Exemplo 2: Qual a média de filhos dos funcionários casados da empresa representados pelo gráfico anterior? • A mediana é a realização que ocupa a posição central da série observada, quando estão ordenadas em ordem crescente. Exemplo 1: Se as 5 observações de uma determinada variável forem 7, 3, 4, 8 e 8, a mediana é o valor 7. Observação: Caso o número de observações seja par, a mediana é dada pela média aritmética dos valos centrais. • Exemplo 2: Se as 4 observações de uma determinada variável forem 7, 4, 3 e 8, a mediana é a média (4 + 7)/2 = 5,5. • Exemplo 2: Suponha que o gráfico abaixo represente a quantidade de filhos dos empregados casados de uma determinada empresa (variável Z). Encontre a mediana da variável Z. Exercício: A tabela abaixo mostra a faixa salarial dos funcionários de uma empresa. Determine, se possível, a porcentagem, a moda, a média e a mediana desses dados. Medidas de Dispersão • Suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas: Percebemos então que as médias das notas nas provas são • A identificação de cada série por sua média (no caso, 5) não nos fornece informações sobre suas diferentes variabilidades. • O Desvio Padrão mede a dispersão dos dados em torno de sua média. Desvio Padrão • Desvio Padrão: “fuga do valor potencial da média (x)”. • O cálculo do desvio padrão utiliza em sua fórmula o valor estimado da média, obtido em sua formula restrita (μ). • Exemplo 1: Voltando ao problema das notas dos alunos. No grupo A o desvio padrão é de 1, 41. • Exemplo 2: Tomemos, como exemplo, o conjunto de valores da variável x: 40, 45, 48, 52, 54, 62, 70 O desvio padrão é de aproximadamente 9, 49. • Exercício: Encontre o desvio padrão de Z, onde a variável Z é a quantidade de filhos dos empregados casados de uma empresa. Como saber se o desvio padrão é grande ou pequeno? Coeficiente de Variação • O coeficiente de variação (CV) expressa a relação percentual do desvio padrão em relação a média. • Desvio Padrão: dispersão absoluta. • coeficiente de variação: dispersão relativa. • Fórmula: • O Coeficiente de Variação interpretado da seguinte forma: • CV pode ser 20 % = trata-se de amostra homogênea. • CV > 20% = trata-se de amostra heterogênea. • Exemplo 1: Imagine dois grupos de pessoas. No primeiro grupo, as pessoas tem idades 3, 1 e 5 anos e no segundo grupo as pessoas tem idades 55, 57 e 53 anos. Encontre o coeficiente de variação de cada grupo. • Exemplo 2: Analise a variabilidade das idades indicadas na tabela abaixo. Classe Idade Indivíduos xi xifi (xi - x )2.fi Fi 1 13 17 8 15 120 368,83 8 2 17 21 14 19 266 108,98 22 3 21 25 8 23 184 11,71 30 4 25 29 9 27 243 244,30 39 5 29 33 4 31 124 339,30 43 Noções de Probabilidade • Espaço amostral ( ou S): Conjunto de resultados possíveis de um experimento. • Os elementos de amostrais. • Todo subconjunto A de são chamados de pontos é dito evento. • Probabilidade : Dado um espaço amostral com n( ) elementos e um evento A de com n(A) elementos, a probabilidade de ocorrer o evento A é dada por: = n(A) / n( ). • O quadro abaixo ilustra o espaço amostral. Os círculos os eventos A e B. Os pontos os pontos amostrais. Exemplos: 1. Lançamos uma moeda duas vezes. Se C indicar coroa e K cara, o espaço a amostral pode ser representado por S = {(C,C), (C, K), (K, C), (K, K)}. Seja A = {duas faces iguais}. A probabilidade de que ocorra o evento A é P(A) = 2/4 = 1/2. 2. Uma fábrica produz determinado artigo. Da linha de produção são retirados aleatoriamente três artigos, e cada um é classificado como bom (B) ou defeituoso (D). Qual a probabilidade de se obter dois artigos defeituosos? 3. Dois dados são lançados e observa-se a soma de suas faces. Qual a probabilidade de que a soma seja maior do que 4? Algumas Propriedades • Dado um espaço amostral S e um evento A de S, temos que 0 < P(A) < 1. • Quando A = { } então dizemos que o evento é impossível, logo, P(A) = 0. • Quando A = S, então dizemos que o evento é certo, P(A) = 1. Exemplo • Na tabela abaixo temos dados referentes a alunos matriculados em quatro cursos de uma universidade em um determinado ano. Considere os eventos M, A, E, C, H e F, listados na tabela. Qual a probabilidade de que, escolhendo-se ao acaso um aluno do conjunto desses quatro cursos, ele seja do curso de Estatística? E de que ele seja do sexo masculino? E de que ele seja do curso de letras (L)? Vemos que P(E) = 30/200, P(H) = 115/200 e P(L) = 0. • Observação 1: Dados os eventos A e H, podem ocorrer dois novos eventos: A e H ocorrem simultaneamente, isto é, ocorre A e ocorre H. Notação: . Exemplo: P( ) = 15/200. Pelo menos um dos eventos ocorre, isto é, ou ocorre A ou ocorre H. Notação: .. Como calcular ? • Considere os eventos A e H. Vemos que: P(A) = 30/200 e P(H) = 115/200. Então, se fizéssemos P( ) = P(A) + P(H) = 145/200. • Se assim o fizéssemos estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática aplicada! Diagrama 1: • Portanto, temos a seguinte fórmula: P( ) = P(A) + P(H) – P( ). • Voltando ao exemplo anterior, obtemos que: P( ) = 30/200 + 115/200 – 15/200 = 130/200. • Observação 2: Note que se considerarmos os eventos A e C, então, P( ) = P(A) + P(C). Por quê??? Nesse caso, dizemos que A e C são disjuntos ou mutuamente exclusivos. • Observação 2: Suponhamos agora que estejamos interessados em saber se o estudante escolhido está matriculados em M, A, E ou C, não interessando saber se é homem ou mulher. Então, temos que: • P( ) = 1, e , P( Neste caso, dizemos que os conjuntos AeB= , são complementares. ) = 0. • Notação: Se A é um evento, denotamos seu complementar por . • P(A) + P( ) = 1. (Voltar no diagrama 1) Exemplos: Consideremos um experimento aleatório e dois eventos A e B associados, tais que Calcule: Probabilidade condicional e Independência • Consideremos novamente a tabela abaixo: • Dado que um estudante, escolhido ao acaso esteja matriculado em Estatística, a probabilidade de que seja mulher é de P(mulher|Estatística) = 2/3. Isto é, dado que o estudante seja do curso de Estatística, qual a probabilidade de escolhermos ao acaso uma mulher? Definição: • Para dois eventos quaisquer A e B, P(B) > 0, definimos a probabilidade condicional de A dado B, como sendo: P(A|B) = . Exemplos: 1. Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, sem repetição. Veja o diagrama em árvore para a extração de duas bolas de uma urna, sem repetição: • Se A indicar o evento “bola branca na segunda extração”, então: 2. Imagine agora, que as duas extrações são feitas da mesma urna do exemplo anterior, mas a primeira bola é reposta na urna antes da extração da segunda. (Extrações independentes) Veja o diagrama em árvore para a extração de duas bolas de uma urna, com repetição: Observe que P(branca na 2ª|branca na 1ª) = 2/5 = P(branca na 2ª) Nesse caso, dizemos que o evento A (bola branca na 2ª extração) independe do evento B (bola branca na 1ª extração). E como vimos P(A|B) = P(A). Logo, temos que, independentes, quando A e B (1) são Exemplos: 1. Considere o experimento “jogar um dado honesto e observar o número da face superior” e o evento A = “observa-se um número par”. O complementar do evento A é independente de A? Não, pois não satisfaz a fórmula (1). 2. Uma região de 100 km² tem um aquífero subterrâneo com área igual a 2 km² cuja localização é desconhecida. Para determinar a posição do aquífero são feitas perfurações ao acaso. Considere o evento H: Encontrar água, cuja probabilidade é P(H) = 2/100 = 0,02. Após alguns anos de pesquisa, uma área de 20 km² foi perfurada sem encontrar água e pode ser descartada Pergunta-se: Qual é a probabilidade de um furo, feito ao acaso, atingir o aquífero? Resolução: Considere o novo evento B: a nova região de procura. Temos que P(B) = 80/100. O evento : encontrar água em um furo feito na região B. Desse modo, a probabilidade de encontrar água dado que a região é 80 km² é: P(H|B) = 0,02/0,8 = 0,025. Principais Referências • AZEVEDO, Ana Luísa Vieira de; RICCIO, Vicente and RUEDIGER, Marco Aurélio. A utilização das estatísticas criminais no planejamento da ação policial: cultura e contexto organizacional como elementos centrais à sua compreensão. Revista Ciência da Informação, Brasília, DF, v. 40 n. 1, p.9-21, jan./abr., 2011. • ARBETTA, P. A. Estatística Aplicada às Ciências Sociais. 3 ed. Florianópolis: Ed. Da UFSC, 1999. • BUSSAB, W., MORETTIN, P. A. Estatística Básica. 4.ed. São Paulo: Atual, 1987. • LEVINE, D. M., BERENSON, M. L. e STEPHAN, D. – Estatística: Teoria e Aplicações usando o Excel. Rio de Janeiro: LTC, 2000 • REVISTA BAIANA DE SAÚDE PÚBLICA, Órgão Oficial da Secretaria da Saúde do Estado da Bahia; v.32, n.2, maio/ago. 2008. Acesso on line: http://inseer.ibict.br/rbsp/index.php/rbsp • SAMPAIO, I.B.M. Estatística aplicada à experimentação Animal. 2ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia – UFMG. Belo Horizonte. 2002. 265p.