Aula 2 –Planejamento e Análise de Experimentos Professores Miguel Antonio Sovierzoski, Dr. [email protected]; Vicente Machado Neto, Dr. [email protected]; Revisão da aula anterior Fatores – níveis - tratamentos Formas de conhecimento População e amostra Média e Desvio Padrão Coeficiente de Variação Erro Padrão Tamanho da amostra Histograma Discussão sobre os trabalhos a serem desenvolvidos na disciplina, fatores, níveis,tratamentos. Fatores - níveis - tratamentos Fator: É uma das variáveis cujos efeitos estão sendo estudados no experimento. Pode ser: • Quantitativo – Ex temperatura em °C, tempo em minutos, etc... • Qualitativo – Ex. diferentes operadores, diferentes máquinas, ligado ou desligado etc... Nível do Fator – É o valor do fator examinado no experimento. • Fator quantitativo – cada valor escolhido constitui um nível. (por exemplo, se o experimento for realizado com 3 tempos diferentes, cada tempo é um nível e o fator tempo tem 3 níveis); • Fator qualitativo – cada condição diferente escolhida para cada fator constitui um nível. (por exemplo, se o experimento for realizado com 2 máquinas operadoras por 3 operadores, o fator máquina tem 2 níveis, e o fator operador, 3 níveis.) Fatores - níveis - tratamentos Tratamento - É um nível único assinalado para um fator durante um experimento. Exemplo: Temperatura a 450°C. Combinação do tratamento – É um conjunto de níveis para todos os fatores num determinado experimento. Exemplo: Experimento usando operador João, máquina A, temperatura de 450°C. Exemplo – Experimento com 2 fatores (operador e máquina), com os seguintes níveis e tratamentos: Operador (4 níveis) – tratamentos: 1) Operador João; 2) Operador Tiago; 3) Operador Márcio; 4) Operador Odete; Máquina (2 níveis) – tratamentos: 1) Máquina marca PXTO; 2) Máquina marca LAMP Passos para construção de um Histograma • Passo 1: ordenar o conjunto de dados, ou seja colocar os dados em ordem crescente de grandeza; • Passo 2: Determinar o número de classes da tabela. De modo geral não deverá ser inferior a 5 e nem superior a 15, orientada para os objetivos do trabalho. • k = número de classes; • n = número de observações; • log = logaritmo de base 10. Passos para construção de um Histograma • Passo 3: determinar a amplitude do intervalo i: Es – Ei = extremo superior – extremo inferior Arredondar o número de classes (k) ou da amplitude do intervalo (i) sempre para cima. Passos para construção de um Histograma • Passo 4: Construir os intervalos de classe. O limite inferior de primeira classe será sempre o menor valor do conjunto de dados (Ei) e o limite superior será o limite inferior acrescido do valor da amplitude do intervalo de classe (i). Na sequência, o limite inferior da segunda classe será o limite superior da primeira classe e o limite superior da segunda classe será este acrescido da amplitude do intervalo. E assim sucessivamente. Obs: os intervalos são inclusivos à esquerda. Passos para construção de um Histograma Obs: os intervalos são inclusivos à esquerda. Frequência de valores nas classes 120 Histograma de uma distribuição Normal contínua 100 80 60 40 20 0 Classes de valores Histograma de uma distribuição Normal contínua com suavização de linhas Histograma de uma distribuição Normal Pela simulação feita no excel podemos verificar que: • Observar que 1 s para cima e para baixo corresponde aproximadamente a 68% das amostras. • E 2s para cima e para baixo a aproximadamente 95% das amostras. Histograma de uma distribuição Normal Pela simulação feita no excel podemos verificar • Frequência de cada uma das classes; • Frequência acumulada das classes. Histograma de múltiplas distribuições Tipos de variáveis Até agora simulamos distribuições de probabilidade de variáveis contínuas, uma vez que o nosso gerador de números aleatórios construído gera infinitos valores. Podemos ter outros tipos de variáveis, tais como categóricas e variáveis numéricas discretas. Variáveis categóricas Para melhor entender o que é uma variável categórica, nada melhor que um exemplo: Suponhamos que desejamos ter uma avaliação da disciplina de PAE, para isto estabelecemos 4 conceitos; ruim, médio, bom e ótimo. Uma vez estabelecidos os conceitos vamos fazer a pesquisa entre 60 alunos: 12 responderam ruim; 27 médio; 15 bom e 6 ótimo. Variáveis categóricas Classe Freq da classe Freq Acum Prop classe Prop Acum Ruim 12 12 0,2 0,2 Médio 27 39 0,45 0,65 Bom 15 54 0,25 0,9 Ótimo 6 60 0,1 1 Total 60 1 30 25 20 15 10 5 0 Ruim Médio Bom Ótimo Variáveis numéricas discretas Para melhor entender o que é uma variável numérica discreta: Consideremos agora que a variável em estudo seja o número de animais portadores de brucelose em 350 propriedades rurais. Variáveis numéricas discretas Temos os seguintes dados: Número de animais com brucelose por propriedade Freq da classe j Classe 1 0 55 55 0,157142857 0,157142857 2 1 60 115 0,171428571 0,328571429 3 2 112 227 0,32 0,648571429 4 3 82 309 0,234285714 0,882857143 5 4 31 340 0,088571429 0,971428571 6 5 8 348 0,022857143 0,994285714 7 6 2 350 0,005714286 1 350 Freq Acum Perc da Classe Perc Acumulado 1 Variáveis numéricas discretas Número de animais com brucelose por propriedade j Classe Freq da classe Freq Acum Perc da Classe 1 0 55 55 0,157142857 0,157142857 2 1 60 115 0,171428571 0,328571429 3 2 112 227 0,32 0,648571429 4 3 82 309 0,234285714 0,882857143 5 4 31 340 0,088571429 0,971428571 6 5 8 348 0,022857143 0,994285714 7 6 2 350 0,005714286 1 350 120 Perc Acumulado 1 Número de animais com brucelose por propriedade 100 1,2 1 80 0,8 60 0,6 40 0,4 Frequência Acumulada de animais infectados por proprieda 0,2 20 0 0 0 1 2 3 4 5 6 0 1 2 3 4 5 6 Medidas descritivas As medidas descritivas têm o objetivo de reduzir um conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve fornecer toda a informação relevante a respeito desses dados. Estas medidas são funções dos valores observados e podem ser classificadas em quatro grupos: Medidas descritivas - Medidas de localização, também denominadas medidas de tendência central ou medidas de posição: indicam um ponto central onde, em muitas situações importantes, está localizada a maioria das observações; - Medidas separatrizes: indicam limites para proporções de observações em um conjunto, podendo ser utilizadas para construir medidas de dispersão; Medidas descritivas Medidas de variação também denominadas medidas de dispersão: informam sobre a variabilidade dos dados; - Medidas de formato: informam sobre o modo como os valores se distribuem. Compreendem as medidas de assimetria, que indicam que a maior proporção de valores está no centro ou mas extremidades, e as medidas de curtose, que descrevem grau de achatamento da distribuição. Medidas de localização ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑥𝑥 = 𝑛𝑛 Medidas de localização: Já falamos sobre a média Devemos ter cuidado com a média, principalmente quando temos valores extremos ou outliers Em estatística, outlier, valor atípico, valor aberrante, é uma observação que apresenta um grande afastamento das demais da série (que esta "fora" dela), ou que é inconsistente. Medidas de localização Moda: a moda corresponde ao dado que tem maior frequência, ou seja, que mais ocorre. Se existirem dois valores com igual número de ocorrência, diz-se que a distribuição é bimodal, para mais de dois valores, tem-se uma distribuição multimodal. Medidas de localização Mediana: é o ponto que divide a amostra em duas metades. Por exemplo, tendo-se um conjunto de observações, tal qual: 10, 50, 25, 60 e 45, a mediana é igual a 45, depois de rearranjar em ordem crescente os dados. O número 45 divide ao meio a amostra. Medidas de localização ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑥𝑥 = 𝑛𝑛 Medidas de localização Medidas de localização Medidas separatrizes As medidas separatrizes delimitam proporções de observações de uma variável ordinal. Como a mediana divide o conjunto em duas metades, é razoável pensar numa medida separatriz que efetue uma divisão adicional: dividir cada metade em duas metades. Essas medidas separatrizes são denominadas quartis. Medidas separatrizes De modo semelhante, é possível encontrar valores que delimitem porções expressas em percentagem de dados em um conjunto ordenado. Esses valores são denominados percentis. Entretanto, de todas essas medidas separatrizes, teremos interesse particular na mediana, e nos quartis. Medidas separatrizes De modo semelhante, é possível encontrar valores que delimitem porções expressas em percentagem de dados em um conjunto ordenado. Esses valores são denominados percentis. Entretanto, de todas essas medidas separatrizes, teremos interesse particular na mediana, e nos quartis. Quartis Os quartis dividem um conjunto de dados ordenado em quatro partes iguais. São elas: -Primeiro quartil Q1: 25% dos valores ficam abaixo e 75% ficam acima desta medida. - Segundo quartil Q2: 50% dos valores ficam abaixo e 50% ficam acima desta medida, corresponde à mediana (Q2=Md). - Terceiro quartil Q3: 75% dos valores ficam abaixo e 25% ficam acima desta medida. Quartis Observa-se facilmente que o primeiro quartil é o percentil 0,25, a mediana é o percentil 0,5 e o terceiro quartil é o percentil 0,75. Quartis Para determinar os quartis: 1º caso: quanto n é impar Exemplo Quartil n impar 10 Quartis no Minitab O Minitab calcula os valores dos quartis de forma um pouco diferente, dependendo da situação isto pode levar a resultados distintos. Quartis no Minitab Quartis no Minitab 𝑖𝑖 Para obtermos os quartis acima como o Minitab calcula, usamos a fórmula 𝑄𝑄𝑖𝑖 = (𝑁𝑁 + 4 1). 1 𝑄𝑄1 = 10 + 1 = 2,75, o valor 2,75 está entre 9 e 16, pega-se a parte fracionária do 4 2,75 (0,75) e multiplica-se pelo intervalo entre 9 e 16 (7), e soma-se ao 9, assim, (169)=7x0,75=5,25+9=14,25. Da mesma forma obtemos 𝑄𝑄2 𝑒𝑒 𝑄𝑄3 . 2 𝑄𝑄2 = 10 + 1 = 5,5 o valor 5,5 está entre 39 e 45; (45-39)=6x0,5=3+39=42. 4 3 4 𝑄𝑄3 = 10 + 1 = 8,25 o valor 8,25 está entre 46 e 48; (48-46)=2x0,25=0,5+46=46,5. A amplitude interquatílica é dada pela diferença (46,50-14,25)=32,25. Medidas de variação ou dispersão As medidas de variação ou dispersão complementam as medidas de localização ou tendência central, indicando quanto as observações diferem entre si ou o grau de afastamento das observações em relação à média. Medidas de variação ou dispersão As medidas de variação mais utilizadas são: a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Desvio padrão: ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥 )2 𝜎𝜎𝑥𝑥 = � 𝑛𝑛 − 1 Coeficiente de variação: Amplitude total: 𝐶𝐶𝐶𝐶 = (𝑆𝑆⁄𝑥𝑥). 100 𝑎𝑎𝑡𝑡 = 𝐸𝐸𝑆𝑆 − 𝐸𝐸𝐼𝐼 𝐸𝐸𝑆𝑆 = 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜; 𝐸𝐸𝐼𝐼 = 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜; Medidas de formato As medidas de formato são um aspecto importante de uma distribuição. Embora mudanças em uma medida de variação também provoquem alterações no aspecto visual, o formato de uma distribuição se relaciona com as ideias de simetria e curtose. Medidas de formato Momentos denotados por mr, são medidas calculadas com o propósito de estudar a distribuição. O momento de ordem r ∑(𝑥𝑥𝑖𝑖 − 𝑎𝑎 )𝑟𝑟 centrado num valor a é dado por : 𝑚𝑚𝑟𝑟 = 𝑛𝑛 Quando 𝑎𝑎 = 𝑥𝑥̅ , temos os momentos de ordem r centrados na média e apresentados ∑(𝑥𝑥 − 𝑥𝑥̅ ) por 𝑚𝑚𝑟𝑟 . Assim temos 𝑚𝑚 = 𝑛𝑛 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑟𝑟 = 1, 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡: 𝑚𝑚1 = 𝑛𝑛 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )3 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑟𝑟 = 3, 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡: 𝑚𝑚3 = 𝑛𝑛 𝑟𝑟 𝑖𝑖 𝑟𝑟 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑟𝑟 = 2, 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡: 𝑚𝑚2 = 𝑛𝑛 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )4 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑟𝑟 = 4, 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡: 𝑚𝑚4 = 𝑛𝑛 Coeficiente de assimetria Entre as várias medidas de assimetria que devem informar se a maioria dos valores se localiza à esquerda, ou à direita, ou se estão uniformemente distribuídos em torno da média aritmética, temos o coeficiente de assimetria, denotado por 𝑎𝑎3 . 𝑚𝑚3 𝑎𝑎3 = 𝑚𝑚2 √𝑚𝑚2 Coeficiente de assimetria - Se 𝑎𝑎3 < 0 , a distribuição é classificada como assimétrica negativa, indicando que a maioria dos valores são maiores ou se localizam à direita da média aritmética. - Se 𝑎𝑎3 = 0 , a distribuição é classificada como simétrica, indicando que a maioria dos valores estão uniformemente distribuídos em torno da média aritmética. Coeficiente de assimetria Se 𝑎𝑎3 > 0 , a distribuição é classificada como assimétrica positiva, indicando que a maioria dos valores são menores ou se localizam à esquerda da média aritmética. Coeficiente de assimetria Coeficiente de curtose As medidas de curtose indicam o grau de achatamento de uma distribuição. O coeficiente de curtose, denotado por𝑎𝑎4 , é calculado a partir de: 𝑚𝑚4 𝑎𝑎4 = 2 𝑚𝑚2 Coeficiente de curtose - Se 𝑎𝑎4 < 3 , a distribuição é classificada como platicúrtica, indicando que ocorre baixa concentração de valores no centro, tornando a distribuição mais achatada que a distribuição normal. - Se , a distribuição é 𝑎𝑎4 = 3 classificada como mesocúrtica, indicando que a concentração das observações ocorre de forma semelhante à distribuição normal. Coeficiente de curtose - Se 𝑎𝑎4 > 3, a distribuição é classificada como leptocúrtica, indicando que ocorre alta concentração de valores no centro, o que provoca um pico maior que o da distribuição normal. Coeficiente de curtose Resumo de cinco números O resumo de cinco números descreve o conjunto de dados através de cinco valores: a mediana (Md), os quartis, primeiro (Q1) e terceiro (Q3), e os extremos, inferior (Ei) e superior (Es). A partir desses valores, podemos calcular: a amplitude interquartílica (aq), obtida pela diferença entre os quartis; Resumo de cinco números a dispersão inferior (Di), obtida pela diferença entre a mediana e o extremo inferior; e a dispersão superior (Ds), diferença entre o extremo superior e a mediana. 𝑎𝑎𝑞𝑞 = 𝑄𝑄3 − 𝑄𝑄1 𝐷𝐷𝐼𝐼 = 𝑀𝑀𝑑𝑑 − 𝐸𝐸𝐼𝐼 𝐷𝐷𝑆𝑆 = 𝐸𝐸𝑠𝑠 − 𝑀𝑀𝑑𝑑 Resumo de cinco números Para uma distribuição ser considerada simétrica temos que ter as duas condições: (𝑄𝑄1 − 𝐸𝐸𝐼𝐼 ≅ 𝐸𝐸𝑆𝑆 − 𝑄𝑄3 ) 𝑎𝑎𝑞𝑞 = 𝑄𝑄3 − 𝑄𝑄1 𝐷𝐷𝐼𝐼 = 𝑀𝑀𝑑𝑑 − 𝐸𝐸𝐼𝐼 𝐷𝐷𝑆𝑆 = 𝐸𝐸𝑠𝑠 − 𝑀𝑀𝑑𝑑 (𝑀𝑀𝑑𝑑 − 𝑄𝑄1 ≅ 𝑄𝑄3 − 𝑀𝑀𝑑𝑑 ) Resumo de cinco números Se uma dessas duas condições não for atendida, então, a distribuição será assimétrica. (𝑀𝑀𝑑𝑑 − 𝑄𝑄1 ≅ 𝑄𝑄3 − 𝑀𝑀𝑑𝑑 ) (𝑄𝑄1 − 𝐸𝐸𝐼𝐼 ≅ 𝐸𝐸𝑆𝑆 − 𝑄𝑄3 ) Identificação de valores discrepantes Um critério objetivo para identificação de valores discrepantes num conjunto de dados utiliza medidas denominadas cerca inferior (Ci) e cerca superior (Cs). Calculas pelas seguintes fórmulas: 𝐶𝐶𝐼𝐼 = 𝑄𝑄1 − 1,5𝑎𝑎𝑞𝑞 𝑒𝑒 𝐶𝐶𝑆𝑆 = 𝑄𝑄3 + 1,5𝑎𝑎𝑞𝑞 São considerados discrepantes os valores que estiverem fora do seguinte intervalo: �𝑄𝑄1 − 1,5𝑎𝑎𝑞𝑞 ; 𝑄𝑄3 + 1,5𝑎𝑎𝑞𝑞 � Identificação de valores discrepantes 𝐶𝐶𝐼𝐼 = 𝑄𝑄1 − 1,5𝑎𝑎𝑞𝑞 𝑒𝑒 𝐶𝐶𝑆𝑆 = 𝑄𝑄3 + 1,5𝑎𝑎𝑞𝑞 �𝑄𝑄1 − 1,5𝑎𝑎𝑞𝑞 ; 𝑄𝑄3 + 1,5𝑎𝑎𝑞𝑞 � Os valores menores que a cerca inferior são denominados discrepantes inferiores e os valores maiores que a cerca superior são denominados discrepantes superiores. Gráfico em caixa (box plot) A informação dada pelo resumo de cinco números pode ser apresentada em forma de um gráfico em caixa, que agrega uma série de informações a respeito da distribuição, tais como localização, dispersão, assimetria, caudas e dados discrepantes. Gráfico em caixa (box plot) Antes de construir o gráfico precisamos definir o que são valores adjacentes. São adjacentes o menor e o maior valores não discrepantes de um conjunto de dados, ou seja, o maior valor que não ultrapassa a cerca superior e o menor valor que não ultrapassa a cerca inferior. Se num conjunto de dados nenhum valor é considerado discrepante, os valores adjacentes são os próprios extremos. Gráfico em caixa (box plot) Para construir o box plot, consideramos um retângulo onde estarão representados os quartis e a mediana. Gráfico em caixa (box plot) A partir do retângulo, para cima e para baixo, seguem linhas, denominadas bigodes, que vão até os valores adjacentes. Os valores discrepantes recebem uma representação individual através de uma letra ou símbolo. Gráfico em caixa (box plot) A posição central dos valores é dada pela mediana e a dispersão pela amplitude interquartílica (aq). As posições relativas da mediana e dos quartis e o formato dos bigodes dão uma noção da simetria e do tamanho das caudas da distribuição. Gráfico em caixa (box plot) Vale lembrar que quando encontramos um valor discrepante num conjunto de dados, a sua origem deve ser investigada. Muitas vezes, os valores discrepantes, de fato, fazem parte do conjunto de dados, reforçando a característica assimétrica da distribuição. Gráfico em caixa (box plot) Mas, eventualmente, estes valores podem ser oriundos de erros na aferição ou no registro dos dados. Em geral, distribuições com caudas longas (indicadas por bigodes longos no gráfico), característica comum de distribuições assimétricas, apresentam uma tendência maior de produzir valores discrepantes. Bigodes de diferentes tamanhos indicam distribuições assimétricas. Gráfico em caixa (box plot) Gráfico em caixa (box plot) - Outliers Boxplot comparação de diversos materiais quanto a resíduos de OE - Com Outliers 500 PPM de OE 400 300 200 100 0 Cateter OE Prol Silicone OE Prol Latex OE Gase OE Inst Inox OE Gráfico em caixa (box plot) - Outliers Gráfico com as médias considerando todos os pontos Gráfico em caixa (box plot) - Outliers Boxplot comparação de diversos materiais quanto a resíduos de OE - Sem Outliers 50 PPM de OE 40 30 20 10 0 Cateter OE Prol Silicone OE Prol Latex OE Gase OE Inst Inox OE Gráfico em caixa (box plot) - Outliers Gráfico em caixa (box plot) - Outliers Análise dos dados com os outliers Gráfico em caixa (box plot) - Outliers Análise dos dados sem os outliers Exercício Utilize o software Minitab para as análises. Exercício Utilize o software Minitab para as análises. Exercício Utilize o software Minitab para as análises. Exercício Utilize o software Minitab para as análises. Exercício Utilize o software Minitab para as análises. Exercício Utilize o software Minitab para as análises. Exercício para casa Pegue dados de um artigo ou que você tenha disponível dos seus experimentos e faça um Box Plot, explicando os respectivos parâmetros da distribuição resultante. Utilize o software Minitab para as análises.