INF 162 – Estatística I J.I.Ribeiro Júnior CAPÍTULO 8 - Noções de técnicas de amostragem 1. Introdução A Estatística constitui-se numa excelente ferramenta quando existem problemas de variabilidade na produção. É uma ciência que trata da coleta e da interpretação de dados, ajudando no estabelecimento de conclusões e de normas sobre o problema estudado. A Estatística atua sobre amostras retiradas de uma população maior. Antes, propriamente dito, da coleta dos dados, que representam a base para as análises e para a tomada de decisões, é importante estabelecer claramente os objetivos do estudo e os procedimentos que irão ser utilizados para a obtenção dos dados. Uma boa coleta irá conter somente dados úteis, evitando desperdícios e fugas das metas traçadas. Na pesquisa, uma grande quantidade de variedade de dados podem ser coletados, porém quais deles estarão envolvidos para a solução do definido problema? Mesmo assim, após o planejamento, simplesmente coletar os dados não é suficiente. A amostra dos dados deve ser representativa da população dos dados, ou seja, a amostra deve ter características similares às da população de onde foi retirada. Ocorre porém, que por mais bem escolhida uma amostra, ela jamais será a representação perfeita da população. Isto quer dizer que a análise da amostra poderá levar a conclusões erradas sobre a população, ou seja, de aceitar uma população como boa, quando deveria ser rejeitada ou de rejeitar uma população ruim, quando na verdade deveria ser aceita. Portanto, no momento da decisão, não se sabe quais desses enganos se comete ou se, realmente, a decisão é correta. Porém, a Estatística permite assegurar que esses enganos ocorram raramente e, ao longo do tempo, não tragam maiores aborrecimentos. A população se refere ao conjunto de todos os dados que podem ser coletados sobre algum fenômeno de interesse e sobre o qual se deseja estabelecer conclusões. Muitas vezes, os tamanhos das populações são muito grandes ou as mesmas não podem ser medidas integralmente. Portanto, é necessário selecionar um subconjunto desses dados, denominado de amostra. Definidos os objetivos e a população a ser estudada, deve-se pensar em como será constituída a amostra dos dados e quais as características ou variáveis a serem avaliadas. Quando os possíveis resultados de uma variável são números de uma certa escala, diz-se que esta variável é quantitativa. Quando os possíveis resultados são atributos, qualidades ou dados categorizados, a variável é dita qualitativa. 2. Questionário A construção de um questionário é uma etapa longa, que deve ser executada com muita cautela e planejamento. Para tanto, alguns procedimentos devem ser levados em consideração. 1 INF 162 – Estatística I J.I.Ribeiro Júnior a) Definir as características a serem avaliadas A decisão de escolha das características depende de vários aspectos, mas o mais importante, é verificar se os resultados das mesmas levam aos objetivos da pesquisa e se são viáveis de serem aplicadas. Portanto, o questionário deve ser completo, no sentido de abranger somente perguntas sobre as características necessárias para atingir aos objetivos da pesquisa, pois quanto maior o questionário, menor tende a ser a qualidade e a confiabilidade das respostas. b) Estabelecer a forma de mensuração das características Para as variáveis quantitativas, devem estar bem definidas as unidades de medidas (meses, m, kg, etc), que devem acompanhar as respostas. Para as variáveis qualitativas, deve haver uma lista completa de alternativas, mesmo que seja necessário incluir categorias como outros, não tem opinião, etc, com o objetivo de evitar alguma resposta estranha. Se uma variável puder ser adequadamente medida sob forma quantitativa, deve-se usar este tipo de mensuração, porque as medidas quantitativas são, em geral, mais informativas do que as qualitativas. Por exemplo, dizer que um funcionário trabalha há 30 anos na empresa é mais informativo do que dizer que ele trabalha há muito tempo na empresa. Porém, em alguns casos, quando se tenta mensurar uma característica atribuindo-lhe uma escala de 1 a 5, pode haver alguma distorção, pois uma nota 3 para um indivíduo pode não significar exatamente o mesmo para outro, já que a escala pode ser entendida de forma diferenciada entre os indivíduos entrevistados. Neste caso, poderiam ser criadas cinco respostas categorizadas, sendo 1 = péssimo, 2 = ruim, 3 = regular, 4 = bom e 5 = ótimo. Caso uma característica seja de difícil medição ou que os indivíduos, por algum motivo, tenham receio de responder, uma opção seria avaliar a mesma indiretamente, através de várias outras que medem esta característica, conforme alguma teoria sobre o assunto. c) Elaborar uma ou mais perguntas para cada característica Ao efetuar uma ou mais perguntas, terá para cada pergunta, uma e apenas uma resposta, sendo que cada pergunta será uma variável. A característica grau de satisfação com o trabalho pode ser avaliada com base em várias perguntas, como por exemplo, satisfação com o salário, segurança no emprego, autonomia de trabalho, etc. d) Verificar se a pergunta está suficientemente clara As perguntas devem ser formuladas numa linguagem que seja compreensível para todos os indivíduos e, além disso, não devem deixar dúvidas de interpretação. e) Verificar se a forma da pergunta não está induzindo alguma resposta ou se a resposta da pergunta é óbvia Dependendo da forma como se realiza a pergunta, a resposta poderá ser sempre a mesma. Isto pode ocorrer quando os tipos de respostas não são capazes de detectar as diferenças entre os indivíduos entrevistados. f) Verificar se o questionário está bom É importante realizar um teste, aplicando o questionário em alguns indivíduos com características similares aos da população em estudo. Neste teste, pode-se detectar falhas que passaram desapercebidas na elaboração do questionário, como por exemplo, duplicidade de alguma pergunta, respostas que não haviam sido previstas, variabilidade não adequada de respostas em alguma pergunta e outras. O teste também serve para estimar o tempo de aplicação do questionário. 2 INF 162 – Estatística I J.I.Ribeiro Júnior 3. Amostragem Para serem conhecidas algumas características de uma população, é comum observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra, obter estimativas para as características de interesse da população. Neste caso, a seleção dos elementos que irão compor a amostra, deve ser feita por uma metodologia adequada, de tal forma que a mesma seja representativa, de modo que os resultados sejam confiáveis para avaliar as características da população. Em termos gerais, as razões de se amostrar se devem à economia de custos para se estudar uma população, à redução do tempo e de mão-de-obra para a realização da coleta dos dados, à confiabilidade e qualidade dos dados e à facilidade na realização dos trabalhos. Quando a população é pequena, quando a característica é de fácil mensuração ou quando há necessidade de alta precisão, pode não ser interessante a realização de uma amostragem. 3.1. Amostragem Aleatória Simples A amostragem aleatória simples consiste em escolher uma amostra de uma população, tal que qualquer item da população tenha a mesma probabilidade de ser selecionado. Este tipo de amostragem requer que todos os itens da população estejam disponíveis para serem avaliados na amostra. Na maioria das aplicações de controle de qualidade, uma vez selecionado um item da população como parte da amostra, esta unidade não é retornada à população para ser disponibilizada novamente para a amostra. Esta amostragem é o método mais simples e caracterizada através da seguinte definição operacional: de um total de N unidades da população, sorteiam-se com iguais probabilidades, n unidades. 3.1.1. Dimensionamento de uma Amostra Aleatória Simples Na amostra, cada unidade é medida, sendo a média e o desvio padrão calculados através das seguintes fórmulas, respectivamente: n X= ∑ Xi i =1 n ; 2 n ∑ X i n n 2 ∑ (X i − X ) ∑ X i2 − i=1 n s = i=1 . = i =1 n −1 n −1 Nas estimativas dos parâmetros de uma população, utilizando-se os resultados de uma amostra, há sempre um erro envolvido, denominado de erro de amostragem ou erro de estimativa, que aparece porque não se avaliou toda a população. Para cada amostra possível existe um possível erro e, para a população, esse erro é considerado nulo. Por exemplo, ao se coletar diferentes amostras aleatórias de um mesmo lote, obtém-se diferentes valores para uma determinada característica de qualidade. Esta variação é causada pelo erro de amostragem (e), podendo ser estimado através da seguinte expressão: 3 INF 162 – Estatística I e = t α s(x ) = t α J.I.Ribeiro Júnior s , em que: n 2 2 e = erro de estimativa da média da população com base nos resultados de uma amostra de tamanho n; α t α = valor de t que deixa uma probabilidade de na extremidade da cauda à direita de 2 2 acordo com o nível de significância α e n0–1 graus de liberdade (gl); s = desvio padrão de uma amostra piloto de tamanho n0. O erro de amostragem (e) pode ser pré fixado de acordo com os objetivos do estudo, permitindo assim, calcular o tamanho de uma amostra necessária para fornecer uma estimativa da média da população de acordo com um nível de significância α, como segue: 2 t αs n= 2 . e Assim, para que o erro ao estimar o peso médio dos estudantes da Universidade fosse de, no máximo 3,0 kg, o dimensionamento da amostra poderia ser feito com base numa amostra piloto constituída por n0 = 10 estudantes (75, 82, 94, 66, 81, 77, 68, 98, 84 e 80). Deste modo, com base em α = 5%, t α (9) = 2,26 e s = 10,07, a amostra 2 deveria ter, no mínimo: 2 2,26 × 10,07 n= = 59 . 3,0 3.2. Amostragem Sistemática No caso de uma linha de produção, a amostragem para um turno de produção pode ser feita nas unidades produzidas na linha de produção. Um procedimento simples é amostrar a cada dez unidades produzidas. Esta amostra é extraída antes que a população de interesse esteja formada. A amostra sistemática apresenta características parecidas com a amostra aleatória simples, porém por um processo mais rápido e mais simples. Por exemplo, se for retirada uma amostra de 1.000 fichas de uma população de 5.000 fichas, pode-se retirar sistematicamente, uma ficha a cada cinco fichas (5000/1000 = 5). 3.3. Amostragem Aleatória Estratificada Quando a população for heterogênea, não se deve usar a amostra aleatória simples, devido à baixa precisão das estimativas obtidas. Nesta situação, deve-se dividir a população em subpopulações de forma que dento das subpopulações haja homogeneidade. Este processo se chama estratificação da população, sendo cada subpopulação um estrato. A amostra obtida nesse caso, chama-se amostra aleatória estratificada. Na prática, a população pode já se apresentar estratificada naturalmente, ou então depender da estratificação a ser realizada, utilizando-se critérios baseados nos conhecimentos que o pesquisador tem sobre a população. Considerando que os h estratos estejam devidamente organizados, pode-se considerar a seguinte notação: 4 INF 162 – Estatística I J.I.Ribeiro Júnior Nh = número de elementos da população no estrato h; nh = número de elementos da amostra no estrato h; H ∑ Nh N= = tamanho da população; h =1 H n= ∑nh = tamanho da amostra. h =1 Em cada estrato, trabalha-se como se o processo envolvesse uma amostra aleatória simples. Assim, para o estrato h, o estimador da média populacional µh é: nh Xh = ∑ X hi i =1 . nh O estimador da variância do estrato h é dado por: nh s 2h = ∑ (X hi − X h ) 2 i =1 . nh −1 O estimador da média da população µ, chamada de média estratificada, é obtido ponderando-se as médias dos estratos, pelo número de elementos do estrato, ou seja: H X est = ∑ Nh Xh h =1 N . 3.3.1. Exemplo Será admitida uma amostra aleatória estratificada (n = 25) sorteada de uma população (N = 194) composta por cinco diferentes fornecedores (estratos) de aços utilizados na fabricação de molas, sendo a variável medida, a dureza (HB) de molas de aços produzidas por uma indústria de autopeças (tabela 1). Tabela 1. Medidas de dureza de molas estratificadas por fornecedor Estrato Nh nh Amostra 1 2 3 4 5 60 49 35 30 20 194 5 6 6 4 4 25 1,6 8,9 12,2 35,3 82,0 1,0 7,3 17,8 29,7 62,0 3,7 8,2 15,0 27,0 75,0 2,4 4,5 11,4 22,0 54,0 1,8 5,9 14,0 – – – 7,6 14,6 – – Xh 2,10 7,07 14,17 28,50 68,25 16,43 s 2h 1,05 2,59 5,13 30,73 158,92 Neste exemplo, fica claro que a estratificação permitiu o reconhecimento de uma importante característica do problema vivenciado pela indústria e o direcionamento do estudo das medidas corretivas que deverão ser adotados para a sua solução. Na etapa de identificação do problema, foi definido o seguinte problema: aumento do número de molas devolvidas por apresentarem dureza fora das especificações. Além das diferenças de médias, percebe-se também a grande diferença de variabilidade entre os estratos. A estimativa da média da população é obtida por: 60 × 2,10 + 49 × 7,07 + 35 × 14,17 + 30 × 28,50 + 20 × 68,25 X est = = 16,43. 194 5