Controle Estatístico de Qualidade Robert Wayne Samohyl Capítulo 3 As distribuições de probabilidade mais importantes em controle estatístico de qualidade (CEQ): variáveis mensuráveis 1 3.1 Introdução • O conceito de distribuição de freqüências e probabilidades de variáveis (ou mensuráveis ou atributos), e principalmente o formato da distribuição, é central para a utilização de estatística. • A tendência central dos dados, a sua dispersão e assimetria são características que definem as distribuições, e facilitam a análise e a inspiração das propostas para melhorias. • O propósito do capítulo 3 é formalizar e generalizar as definições dessas características distribucionais para as variáveis mensuráveis e utilizá-las nas ferramentas de controle estatístico de qualidade. 2 3.2 Distribuição normal • Como já foi discutido no capítulo 2 sobre as medidas descritivas e os gráficos básicos, os dados que vem da distribuição normal produz um agrupamento de valores observados próximos à média, e freqüências menores quando nos afastamos da média. • Esse formato é facilmente visto no histograma. 3 3.2.1 Distribuições não-normais transformáveis em normal • Em alguns casos, ainda raros, dado o tipo de variável sob investigação, o pesquisador não deve esperar a distribuição normal. • O variável tempo (duração de tempo entre eventos), por exemplo, quase nunca é distribuída normalmente. Veja o histograma na próxima transparência. 4 Figura 3.1 – A distribuição de tempos de parada de máquina esperando manutenção. Freqüência 500 400 300 200 100 0 303 265 227 190 152 114 76 39 1 Minutos de parada da máquina 5 Transformação logarítmica • Para resolver o problema de não normalidade, o pesquisador pode experimentar uma transformação do dado original para um dado distribuído normalmente. • Para dados de tempo, a experiência diz que uma transformação logarítmica é a melhor sugestão inicial, • W = ln(X). • Assim, transformando todos os dados da variável X pelo logaritmo natural e montando o histograma dos dados transformados (ln(X)), veja na figura 3.2, fica convincente que o resultado é a distribuição normal. 6 Freqüência Figura 3.2 – A distribuição de tempos de parada de máquina após a aplicação da transformação exponencial ln(X) Minutos transformados 7 3.2.2 Características matemáticas da distribuição normal: a relação entre o desvio padrão da variável e a probabilidade Desde que uma boa parte do mundo real tende a se representar como a distribuição normal, as figuras a seguir ajudam a compreender melhor a realidade e também a conveniência prática da distribuição normal. 8 Figura 3.3a - A distribuição normal em termos de um único desvio padrão. Distribuição normal em desvio padrão 68,27% 15,865 % -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 9 Figura 3.3b - A distribuição normal em termos de dois desvios padrão. Distribuição normal em desvio padrão 95,45% 2,275% -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 10 Figura 3.3c - A distribuição normal em termos de três desvios padrão. Distribuição normal em desvio padrão 99,73% 0,135% -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 11 Figura 3.3d - A distribuição normal em termos de seis desvios padrão. Distribuição normal em desvios padrão 0,999999998 0,000000001 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 12 Tabela 3.1 – Valores de Zi e a área acumulada, a probabilidade de Zi ser menor. Area acumulada Zi a esquerda -6 0,000000001 -5,9 0,000000002 -5,8 0,000000003 -5,7 0,000000006 -5,6 0,000000011 -5,5 0,000000019 -5,4 0,000000033 -5,3 0,000000058 -5,2 0,000000100 -5,1 0,000000170 -5 0,000000287 -4,9 0,000000479 -4,8 0,000000793 -4,7 0,000001301 -4,6 0,000002112 -4,5 0,000003398 -4,4 0,000005413 -4,3 0,000008540 -4,2 0,000013346 -4,1 0,000020658 -4 0,000031671 Area acumulada Zi a esquerda -3,9 0,000048096 -3,8 0,000072348 -3,7 0,000107800 -3,6 0,000159109 -3,5 0,000232629 -3,4 0,000336929 -3,3 0,000483424 -3,2 0,000687138 -3,1 0,000967603 -3,0 0,001349898 -2,9 0,001865813 -2,8 0,002555130 -2,7 0,003466974 -2,6 0,004661188 -2,5 0,006209665 -2,4 0,008197536 -2,3 0,010724110 -2,2 0,013903448 -2,1 0,017864421 -2,0 0,022750132 Area acumulada Zi a esquerda -1,9 0,02871656 -1,8 0,035930319 -1,7 0,044565463 -1,6 0,054799292 -1,5 0,066807201 -1,4 0,080756659 -1,3 0,096800485 -1,2 0,11506967 -1,1 0,135666061 -1 0,158655254 -0,9 0,184060125 -0,8 0,211855399 -0,7 0,241963652 -0,6 0,274253118 -0,5 0,308537539 -0,4 0,344578258 -0,3 0,382088578 -0,2 0,420740291 -0,1 0,460172163 Area acumulada Zi a esquerda 0 0,5 0,1 0,539827837 0,2 0,579259709 0,3 0,617911422 0,4 0,655421742 0,5 0,691462461 0,6 0,725746882 0,7 0,758036348 0,8 0,788144601 0,9 0,815939875 1 0,841344746 1,1 0,864333939 1,2 0,88493033 1,3 0,903199515 1,4 0,919243341 1,5 0,933192799 1,6 0,945200708 1,7 0,955434537 1,8 0,964069681 1,9 0,97128344 Area Area acumulada acumulada Zi a esquerda Zi a esquerda 2 0,97725 4 0,999968329 2,1 0,982136 4,1 0,999979342 2,2 0,986097 4,2 0,999986654 2,3 0,989276 4,3 0,99999146 2,4 0,991802 4,4 0,999994587 2,5 0,99379 4,5 0,999996602 2,6 0,995339 4,6 0,999997888 2,7 0,996533 4,7 0,999998699 2,8 0,997445 4,8 0,999999207 2,9 0,998134 4,9 0,999999521 3 0,99865 5 0,999999713 3,1 0,999032 5,1 0,999999830 3,2 0,999313 5,2 0,999999900 3,3 0,999517 5,3 0,999999942 3,4 0,999663 5,4 0,999999967 3,5 0,999767 5,5 0,999999981 3,6 0,999841 5,6 0,999999989 3,7 0,999892 5,7 0,999999994 3,8 0,999928 5,8 0,999999997 3,9 0,999952 5,9 0,999999998 6 0,999999999 13 3.2.3 Distribuição normal padronizada (Z) • Quando a distribuição normal é padronizada com a média igual a zero e desvio padrão unitário, como nas figuras 3.3, as percentagens de área embaixo da curva podem ser avaliadas e tabeladas para qualquer número ou fração de desvios padrão como foi feito na tabela 3.1. • Nesse sentido, qualquer número Xi em medidas originais como centímetros, litros, reais ou dólares pode ser transformado em variável padronizada Zi 14 Zi exemplo Voltando para tabela 2.2, a média das demoras para resolver os problemas dos clientes é 182,89 minutos e, para ilustrar a transformação para Zi, vamos escolher o oitavo número da lista, 325,89 minutos. O desvio a partir da média é 325,89 – 182,89 = 143 minutos. Então, para converter a medida original minutos em número de desvios padrão de distância da média, é só dividir pelo valor do desvio padrão (94,99). Assim, podemos escrever Xi X 143 Zi desvio padrão 94,99 = 1,5 15 Análise • Como foi exemplificado nas figuras 3.3, a área embaixo da curva a direita de Zi (1,50) é a probabilidade P(Zi) de encontrar valores maiores que Xi (325). A probabilidade foi encontrada na tabela 3.1 e é quase 7% (1 – 0,933). • Muito provavelmente o gerente tentando investigar esse valor individual para alguma causa especial não vai encontrar nada. Se forem consideradas as duas caudas, a probabilidade é 14% de encontrar valores pelo menos 1,50 desvios padrão da média em circunstâncias perfeitamente normais com a média do processo estável e a variabilidade embora grande, mas também estável. • O problema nesse processo é com a dispersão dos dados em geral. Talvez seja necessário treinar o pessoal e organizar melhor todo o processo de atendimento ao cliente. 16 3.2.4 Exemplo na universidade: prêmio para os melhores alunos • Uma grande universidade no sul do Brasil tem 18.000 alunos, uma população grande. Imediatamente depois de cada semestre, o reitor gostaria apresentar um prêmio aos melhores alunos com médias finais mais altas, mas o problema é como reconhecer rapidamente esses alunos sem pesquisar todos os 18.000. É reconhecido que a administração da universidade é lenta e leva mais ou menos um mês para processar as médias finais da população de todas as disciplinas e alunos. 17 P(Z) = 1% → Zi = 2,33 Já sabemos que o valor estimado da amostra para a média das avaliações é 7,0 e que o valor estimado do desvio padrão é 1,0. Colocando tudo junto, temos então: 2,33 = (Xi - média) desvio padrão (Xi - 7,0) 1,0 18 3.2.4 Exemplo na universidade: prêmio para os melhores alunos 0,45 0,4 0,35 Área na cauda a direita de 9,33 é 1,0%, os alunos premiáveis. 0,3 0,25 0,2 0,15 0,1 0,05 0 4 5 6 7 8 9 9,33 2 2,33 10 Xi conceitos finais -1 0 1 Zi desvios padrão da média . 9,33 = média + 2,33*desvio padrão 9,33 = 7,0 + 2,33*1,0 19 Figura 3.5 – Distribuição normal e distribuição t, comparação de caudas. distribuição normal distribuição t 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 Distância em desvios padrão 20 3.4 Algumas considerações sobre as distribuições F e χ2 (Chi quadrado) 22 k 2 Zi2 i 1 F(gl2 ,gl1 ) gl2 12 gl1 21 3.5 Exercício 6. Um engenheiro rejeita todo produto que está fora dos limites de especificação. Nesse momento, a linha está produzindo uma taxa de 10% de rejeito simetricamente acima e abaixo dos limites de especificação. No entanto, ele é descontente com a alta taxa de rejeição e quer uma taxa ao máximo de 2%. Ele vê duas alternativas: ou diminuir o desvio padrão do processo ou aumentar os limites de especificação. Qual é a alternativa mais econômica no curto prazo? Outra questão importante é se o engenheiro optar para diminuir o desvio padrão do processo, qual é a relação entre o desvio padrão novo que é menor e o desvio padrão velho que é obviamente maior? Elaborar sua resposta usando a distribuição normal padronizada. 22 Resposta: Em primeiro lugar, a alteração dos limites de especificação é sempre mais fácil que a alteração do desvio padrão do processo, embora a base conceitual do limite de especificação tenha mais a ver com a engenharia da peça e não considerações comerciais. Utilizando a distribuição normal padronizada, queremos comparar a diferença entre o desvio padrão do processo antes das melhorias e depois das melhorias, em outras palavras, quanto foi diminuído o tamanho do desvio padrão. Vamos comparar as caudas da distribuição normal padronizada antes e depois das melhorias. Antes, a cauda é igual a 5% e depois é igual a 1%. A distância entre o limite de especificação e a média em unidades originais fica constante. Antes das melhorias, a distância é 1,64 desvios padrão velhos e depois das melhorias é 2,33 desvios padrão novos. Em outra forma, 1,64 desvios padrão velhos = 2,33 desvios padrão novos. A relação entre desvios padrão novos e velhos é 1,64/2,33 = 0,7. Portanto, o desvio padrão vai ter que diminuir em aproximadamente 30% para diminuir a taxa de rejeição de 10% para 2%. 23 3.6 Referências Box, George E. P.; Cox, D. R. (1964). "An analysis of transformations". Journal of the Royal Statistical Society, Series B 26: 211–246. http://www.jstor.org/stable/2984418. 24