Relatório Final de Iniciação Científica Avaliação da Utilização de Conceitos Estatísticos na Pesquisa em Engenharia Química Bolsista: IVANDER AUGUSTO MORAIS BUENO email: [email protected] ______________________________ Orientador: Prof. Dr. Fábio Gerab Departamento de Matemática - FEI email: [email protected] ______________________________ 25/09/2010 SUMÁRIO 1. OBJETIVOS................................................................................................... 4 1.1 Objetivo Geral ............................................................................................. 4 1.2 Objetivos Específicos .................................................................................. 4 2. JUSTIFICATIVA ........................................................................................... 4 3. REVISÃO BIBLIOGRÁFICA ....................................................................... 6 3.1 Famílias de Técnicas Estatísticas ................................................................ 6 3.1.1 Estatística Descritiva ............................................................................ 8 3.1.2 Distribuições Amostrais ....................................................................... 9 3.1.3 Testes de Hipóteses ............................................................................ 11 3.1.4 Comparação de Várias Médias (ANOVA) ........................................ 13 3.1.5 Correlação e Regressão ...................................................................... 16 3.1.6 Inferência Bayesiana .......................................................................... 17 3.1.7 Estatística Multivariada ...................................................................... 17 3.1.7.1 Análise de Componentes Principais (ACP) ................................ 18 3.1.7.2 Análise de Agrupamento Hierárquico (“Clusters”) .................... 19 3.1.8 Famílias de técnicas estatísticas ......................................................... 21 3.2 A Engenharia Química .............................................................................. 22 3.2.1 A Atual Engenharia Química ............................................................. 23 3.2.2 Áreas de atuação do Engenheiro Químico ......................................... 24 4. RECURSOS MATERIAIS .......................................................................... 25 5. METODOLOGIA DE ESTUDOS ............................................................... 25 5.1 Estatística .................................................................................................. 25 5.2 Escolha do Periódico ................................................................................. 26 5.3 Conhecimentos prévios em Engenharia Química ..................................... 27 6. PREPARAÇÃO DO CADASTRO .............................................................. 28 1 6.1 Consolidação do Cadastro ......................................................................... 28 6.2 Modelo de Cadastro .................................................................................. 29 6.3 Escala de mensuração de importância....................................................... 33 6.4 Praticidade da metodologia adotada.......................................................... 34 7. RESULTADOS ............................................................................................ 35 7.1 Imparcialidade na obtenção dos resultados ............................................... 35 7.2 Apresentação dos resultados ..................................................................... 36 7.3 Análise Estatística dos Resultados ............................................................ 42 7.3.1 Teste da diferença entre duas proporções de população .................... 43 7.3.2 Análise de Componentes Principais (ACP) e Análise de Agrupamento Hierárquico (“Cluster”) .......................................................................................... 44 7.3.3 Outras técnicas estatísticas ................................................................. 47 8. CONCLUSÃO ............................................................................................. 48 REFERÊNCIAS BIBLIOGRÁFICAS ................................................................ 50 2 RESUMO A partir de um estudo adequado dos artigos publicados no Brazilian Journal of Chemical Engineering nos anos de 1998 e de 2008, respectivamente, averiguou-se quais técnicas estatísticas vem sendo empregadas em pesquisas na área de engenharia química e se tem havido aumento significativo no uso destas técnicas em projetos de pesquisa nesta área da engenharia. Esse aumento vem sendo verificado em outras áreas de pesquisa em química, porém examinar qual tem sido a influência dessas abordagens matemáticas para a engenharia química ao longo desses anos, possibilitou avaliar a real adequação da abordagem matemática inferencial nos cursos de engenharia química, tanto no nível de graduação como no de pós-graduação, às necessidades do desenvolvimento desta engenharia realizado no Brasil. Palavras-chave: 1. Estatística 2. Engenharia Química 3. Influência 3 1. OBJETIVOS 1.1 Objetivo Geral Analisar a importância no uso de famílias de técnicas de estatísticas para o desenvolvimento de projetos na área da engenharia química ao longo dos últimos anos. 1.2 Objetivos Específicos Compreender as famílias de técnicas estatísticas mais utilizadas em engenharia química. Desenvolver habilidades para leitura e entendimento do inglês técnico pertinente à esta área da engenharia. 2. JUSTIFICATIVA Em um mercado globalizado e altamente competitivo, o sucesso (ou mesmo a sobrevivência) de qualquer empresa depende, inquestionavelmente, da qualidade de seu produto (CASTRO, 1999). A importância que a qualidade do produto adquiriu, nos dias atuais, é inquestionável e as empresas estão cientes que investir em otimização de processos para garantir uma boa relação custo/benefício é imprescindível para seu sucesso ou mesmo sobrevivência. Sob essa ótica, um setor de grande importância dentro da empresa, capaz de viabilizar custos, isto é, aperfeiçoar processos de produção, melhorar qualidade de serviços, produzir de forma inteligente, entre outros, é o da Engenharia. Nesse contexto, alguns autores (SANTOS, MARTINS, 2004) afirmam que o uso dos princípios estatísticos para se estudar variação nos processos de manufatura teve seu início nas primeiras décadas do século XX. A partir de então, com os constantes avanços tecnológicos, essas técnicas obtiveram característica ímpar em questões de 4 estratégia de melhoria de processos e de solução de problemas em diversas áreas de conhecimento. Na química, a parte que engloba esses conhecimentos no estudo é denominada Quimiometria. Segundo definição do Laboratório de Quimiometria em Química Analítica do Instituto de Química (LAQQA, 2010) da UNICAMP, quimiometria é uma área que se refere à aplicação de métodos estatísticos e matemáticos, assim como aqueles baseados em lógica matemática, a problemas de origem química. Nesse âmbito, tem-se tornado corriqueiro o uso de sistemas multivariados, nos quais se pode medir muitas variáveis simultaneamente, ao se analisar uma amostra qualquer (HAIR et. al., 2005). E ainda, de acordo com o LAQQA, nesses sistemas, a conversão da resposta instrumental no dado químico de interesse, requer a utilização de técnicas de estatística multivariada, álgebra matricial e análise numérica. Atualmente essas técnicas se constituem na melhor alternativa para a interpretação de dados e para a aquisição do máximo de informação sobre o sistema. Ainda nessa conjuntura, com a estruturação das técnicas estatísticas e a disseminação de sua importância como ferramenta crucial para melhoria de processos, surgiu a abordagem Seis Sigma, que, com o uso sistemático das ferramentas estatísticas mudou o cenário competitivo ao resgatar os princípios estatísticos e ressaltar sua relevância para conseguir incrementos significativos de melhoria da qualidade, aumentar a produtividade e reduzir custos e, principalmente, diminuir as taxas de falhas em processos produtivos (SANTOS; MARTINS, 2004). Nas últimas décadas, grandes empresas como General Eletric (GE), Dow Chemical e DuPont adotaram o Programa de Qualidade Seis Sigma (PQSS). Em meados dos anos 1990, quando foram publicados os primeiros artigos sobre o Seis Sigma (SANTOS; MARTINS, 2004), os autores demonstraram entender que o Seis Sigma era uma abordagem técnica, onde a medição, uso da estatística e a meta de quase perfeição constituíam os pontos fortes da abordagem (MITCHELL, 1992; TADIKAMALLA, 1994; BEHARA et al., 1995). Com o passar do tempo, novas visões foram sendo introduzidas e a abordagem Seis Sigma passou a constituir um modo eficiente e eficaz para as organizações conseguirem elevar seu desempenho. Alguns 5 autores (CORONADO; ANTONY, 2002) definem o Seis Sigma como “uma estratégia para melhoria de negócios usada para aumentar a lucratividade do negócio, eliminar refugo, reduzir custo da não qualidade e melhorar a eficiência e eficácia de todas as operações ...”. Nessas circunstâncias, não é difícil notar a grande importância das técnicas estatísticas nas diversas áreas do conhecimento e, em particular, como ferramenta de otimização nas indústrias. Nesse sentido o presente trabalho atua de maneira a salientar o valor das mesmas para uma área em especial, a da engenharia química, buscando, ao longo do desenvolvimento desse trabalho, mensurar a importância dessas técnicas estatísticas para esta área de pesquisa, e de que maneira esta importância tem evoluído na elaboração de projetos em engenharia química ao longo da última década, através de um estudo adequado dos artigos publicados em um mesmo periódico científico nos anos de 1998 e de 2008. 3. REVISÃO BIBLIOGRÁFICA A seguir encontra-se uma revisão bibliográfica dos conteúdos tratados nesse trabalho, tais como: As famílias de técnicas estatísticas, Engenharia Química e o Software SPSS. 3.1 Famílias de Técnicas Estatísticas Estatística é parte da matemática em que se investigam processos de obtenção, organização e análise de dados sobre uma população ou uma coleção de seres quaisquer, e métodos de tirar conclusões e fazer predições com base nesses dados (FERREIRA, 2001). A estatística pode ser considerada como a ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Segundo Costa Neto (COSTA NETO, 1977) essa conceituação é absolutamente geral e engloba o conceito usual do que seja a Estatística. Esse conceito usual, popular, 6 logo relaciona a Estatística com tabelas e gráficos nos quais os dados experimentalmente obtidos são representados. Dessa maneira, ouve-se, assim, falar em estatísticas do movimento da Bolsa de Valores, estatística da loteria esportiva, estatísticas da Saúde Pública, estatísticas do crescimento da população, etc. Entretanto essa noção usual prende-se normalmente apenas à parte de organização e descrição dos dados observados. Há ainda todo um campo de atuação da ciência Estatística que se refere à análise e interpretação desses dados e que normalmente escapa à noção corrente. Sob esta ótica, pode-se dividir a ciência Estatística em basicamente duas partes: a Estatística Descritiva, que se preocupa com a organização e descrição dos dados experimentais, e a Estatística Indutiva (Inferência Estatística), que cuida da sua análise e interpretação. A Estatística é uma ferramenta multidisciplinar que vem exercendo grande influência na maioria dos campos do conhecimento humano. Sua aplicabilidade, por exemplo, vem sendo utilizada no aprimoramento de equipamentos espaciais, no controle de tráfego, na eficiência de um novo tratamento no combate à determinada doença, entre outras. Está presente tanto na esfera governamental como na iniciativa privada (ENCE, 2010). Para identificar e quantificar o uso das técnicas estatísticas empregadas na pesquisa em Engenharia Química foi necessário agrupar as técnicas em famílias. Esse estudo qualificou as técnicas utilizadas em sete famílias, são elas: Estatística Descritiva (ED), Distribuições Amostrais (DA), Testes de Hipóteses (TH), Comparação de Várias Médias (ANOVA), Correlação e Regressão (CR), Inferência Bayesiana (IB) e Estatística Multivariada (EM). Para obter resultados homogêneos e corretos nessa análise documental foram necessários conhecimentos prévios para avaliar as famílias de técnicas aplicadas e, definir quantitativamente o grau de importância de sua aplicação na pesquisa. Dessa maneira, estudou-se grande parte dessas famílias de técnicas com afinco durante a primeira metade do trabalho e as demais na segunda metade. Ressalta-se aqui, que o fato de não ter estudado em aprofundamento algumas das famílias de técnicas na primeira etapa do trabalho, não implica em prejuízo para a 7 análise porque antes de aprofundar-se nas famílias de técnicas em separado, foi necessária uma visão geral de todas elas, o que permitiu sua identificação e sua caracterização nas vezes em que foram empregadas nos distintos trabalhos de pesquisa. Para melhor entendimento do que foi desenvolvido e tratado nesse projeto, a seguir é apresentada cada uma das famílias de técnicas estudadas, na ordem citada anteriormente. Não obstante, essa discussão não tem como objetivo aprofundar-se no assunto, não cabe a este texto discutir a Estatística, em si, e sim dar uma visão do que trata cada uma das técnicas ressaltadas nesse estudo. 3.1.1 Estatística Descritiva A Estatística Descritiva, denominada também, Análise Exploratória de Dados, trata-se de um conjunto de técnicas de tratamento de dados que, sem implicar em uma fundamentação matemática mais rigorosa, ajuda a tomar um primeiro contato com a informação disponível (HURTADO, 2010). Em suma, as técnicas pertencentes a está família, são frequentemente empregadas, e levam à construção de tabelas, gráficos, ogivas que pretendem facilitar a compreensão do fenômeno em estudo, ou seja, tendem a apelar para o poder da visualização. Por ser de grande utilidade nas abordagens estatísticas, abaixo é apresentada a classificação de variáveis. Note que inicialmente elas são divididas em: Qualitativas e Quantitativas, e dentro dessa classificação elas subdividem-se em: qualitativa nominal e ordinal, e quantitativa discreta e contínua. Qualitativas Nominal ou categórica: os valores possíveis são diferentes categorias não ordenadas. Ex: raça, nacionalidade, área de atividade. Ordinal: os valores possíveis são diferentes categorias ordenadas em que cada observação pode ser classificada. Ex: classes sociais, nível de instrução, categoria de clientes (platina, ouro, prata, bronze). Quantitativas 8 Discreta: os valores possíveis são resultados de um processo de contagem, podem assumir apenas valores pertencentes a um conjunto enumerável. Ex: número de carros, número de filhos, idade em anos. Contínua: os valores possíveis são resultados de um processo de medição, podendo ser expressos por números reais, e frequentemente dados em alguma unidade de medida. Ex: peso, altura, renda mensal. Em todos os tipos de gráfico, é importante colocar o título, contendo as informações necessárias para uma rápida compreensão do conteúdo do gráfico, bem como a fonte, onde se indica a instituição responsável pelo fornecimento dos dados. Os Gráficos de Barras e Gráficos de Colunas são mais apropriados para as variáveis qualitativas ordinais e para as quantitativas discretas. Elas permitem uma visualização por meio de retângulos horizontais (barras) ou verticais (colunas) dos resultados obtidos, com o objetivo de dar ênfase à comparação de resultados e mostrar como está constituído um valor total. Os Gráficos de Setores, por sua vez, são mais apropriados para as variáveis qualitativas nominais, tendo como objetivo a pronta visualização do quanto a informação de cada parte está representada no todo. 3.1.2 Distribuições Amostrais Para comentar a cerca de Distribuições Amostrais é necessário ter em mente o conceito de Distribuição de Probabilidade, para tanto, tome como exemplo a tab. 3.1.1 abaixo, que fornece o número de ocorrências de incêndio em uma cidade durante um mês. 9 Tab. 3.1: Número de ocorrências de incêndio durante um mês. Fonte: Autor. Dessa maneira, a probabilidade de ocorrer incêndio, é dada por: Nenhum incêndio: p Um incêndio: p 22 0,73 30 5 0,17 30 Dois incêndios: p 2 0,07 30 Três incêndios: p 1 0,03 30 Pode-se, então, representar a mesma situação apresentada anteriormente através de uma tabela que representa uma aproximação do que seria a Distribuição de Probabilidades (tab. 3.1.2) associada ao fenômeno. Tab. 3.2: Distribuição de Probabilidades. Fonte: Autor. De acordo com o exemplo demonstrado anteriormente, tem-se que a definição, é: 10 Seja X uma variável aleatória que pode assumir os valores x1, x2, x3, ..., xn. A cada valor xi correspondem pontos do espaço amostral. Associa-se, então, a cada valor xi a probabilidade pi de ocorrência de tais pontos no espaço amostral. Desta forma temse que a soma de todos os pi’s é igual a 1. Os valores x1, x2, x3, ..., xn e seus correspondentes p1, p2, p3, ..., pn definem uma distribuição de probabilidade (DISTRIBUIÇÔES Amostrais). Nesse momento, é possível apresentar o que de fato é a Distribuição Amostral. Ao retirar-se uma amostra aleatória de uma população e calcular a partir dessa amostra qualquer quantidade, encontra-se a Estatística, ou seja, denominam-se os valores calculados em função dos elementos da amostra de estatísticas. As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com uma média, uma variância, etc. A distribuição de probabilidade de uma estatística chama-se comumente Distribuição Amostral (COSTA NETO, 1977). Existem diversas formas de comportamento para a Distribuição de Probabilidade, dessa forma, existem distintos tipos de Distribuições Amostrais Probabilísticas. São elas: Distribuição Normal, Exponencial, Gama, Qui-quadrado e t de Student (para variáveis aleatórias contínuas), e Distribuição Binomial, de Poisson, Geométrica, de Pascal, Hipergeométrica e Multinomial (para variáveis aleatórias discretas). 3.1.3 Testes de Hipóteses Segundo Viali (VIALI, 2010) nas ciências do comportamento, efetuam-se levantamentos a fim de determinar o grau de aceitação de hipóteses baseadas em teorias do comportamento. Formulada uma determinada hipótese particular é necessário coletar dados empíricos e com base nestes dados decide-se então sobre a validade ou não da hipótese. A decisão sobre a hipótese pode levar a rejeição, revisão ou aceitação da teoria que a originou. Essa é a técnica denominada Testes de Hipóteses, que tem como objetivo decidir se uma determinada hipótese deve ser aceita ou pode ser rejeitada em função da inferência estatística que se efetuou (BEKMAN, COSTA NETO, 1980). 11 Para se chegar a conclusão que uma determinada hipótese deverá ser aceita ou rejeitada, baseado em um particular conjunto de dados, é necessário dispor de um processo objetivo que permita decidir sobre a veracidade ou falsidade de tal hipótese. A objetividade deste processo deve ser baseada na informação proporcionada pelos dados, e como estes dados, em geral, envolvem apenas parte da população que se pretende atingir, no risco que se está disposto a correr de que a decisão tomada não esteja correta. Reiterando, a aplicação dessa técnica estatística está relacionada a um nível de significância a ser usado, isto é, determinar previamente com que probabilidade a hipótese nula (Ho) será rejeitada mesmo que de fato seja verdadeira. Essa ocorrência é denominada Erro tipo I. A probabilidade de ocorrência do Erro tipo I é sempre igual ao nível de significância, que é usado como padrão para rejeição da hipótese nula, ele é simbolizado pela grega minúscula α, e dessa forma, α também designa o nível de significância. Os níveis de significância mais frequentemente utilizados no teste de hipótese são os de 5% e 1% (Kazmier, 2007). Em contrapartida o Erro tipo II ocorre se a hipótese nula não é rejeitada, e, portanto, aceita, quando ela for de fato falsa. Na tabela 3.3 abaixo é possível notar as conseqüências das decisões no teste de hipóteses com facilidade. Tabela 3.3 – Consequências das decisões no teste de hipóteses Estados possíveis Hipótese nula aceita Hipótese nula rejeitada Estados possíveis Hipótese Hipótese nula nula verdadeira falsa corretamente Erro aceita Tipo II Erro Corretamente Tipo I rejeitada Fonte: Kazmier, 2007. Para melhor compreensão de como é aplicada esta técnica, a seguir é apresentada a metodologia para a decisão sobre a veracidade ou falsidade de uma determinada hipótese envolve algumas etapas. 12 1. Definir a hipótese de nula (H0). 2. Escolher a prova estatística (com o modelo estatístico associado) para tentar rejeitar H0. 3. Definir o nível de significância (α) e um tamanho de amostra (n). 4. Determinar (ou supor determinada) a distribuição amostral da prova estatística sob a hipótese de nulidade. 5. Definir a região de rejeição. 6. Calcular o valor da prova estatística, utilizando os valores obtidos na(s) amostra(s). Se tal valor estiver na região de rejeição, rejeitar, então a hipótese nula, senão a decisão será que a hipótese nula não poderá ser rejeitada ao nível de significância determinada. 3.1.4 Comparação de Várias Médias (ANOVA) Dentro da técnica denominada Comparação de Várias Médias (COMPARAÇÃO de várias médias, 2010), existe uma em especial, que é a mais importante para esse fim. Trata-se da técnica Análise da Variância (ANOVA) que é um método suficientemente poderoso para poder identificar diferenças entre as médias populacionais devidas a várias causas, atuando simultaneamente sobre os elementos da população. A análise da variância permite fazer comparações entre três ou mais médias amostrais. Este teste produz uma estatística ou razão F, cujo numerador representa a variação entre os grupos, e cujo denominador contém uma estimativa da variação dentro dos grupos. Para compreender o raciocínio conceitual envolvido nesta técnica, tome como exemplo a situação apresentada abaixo: Exemplo: Quinze candidatos selecionados em um programa de estágio são aleatoriamente atribuídos a três diferentes tipos de abordagem de instrução, todas interessadas no desenvolvimento de um nível especificado de habilidade em projeto assistido por computador. As pontuações obtidas em provas na conclusão da unidade de instrução estão divulgadas na tabela 3.4, ao longo do processo, com o desempenho 13 médio associado a cada abordagem de instrução. Abaixo é demonstrado o procedimento de análise de variância para testar a hipótese nula de que as três amostras foram obtidas da mesma população, usando um nível de significância de 5% para o teste. Tabela 3.4 – Pontuação obtidas em provas de avaliação sob três métodos de instrução. Método de instrução A1 84 Pontuação total 400 Pontuação média nas provas 80 86 79 81 70 A2 90 76 88 82 89 425 85 A3 82 68 73 71 81 375 75 Pontuações nas provas Fonte: Autor “adaptado de” Kazmier, 2007, p. 240. Ho: µ1 = µ2 = µ3 ou, de maneira equivalente, H1: nem todos µ1 = µ2 = µ3 Ho: αk = 0 para todos os tratamentos H1: αk ≠ 0 para algum tratamento (1) Cálculo da média geral de todas as pontuações das 15 provas é O erro padrão da média, baseado nas três médias da amostra divulgada é (2) Cálculo da média quadrática entre grupos de tratamento (MSTR), que é uma estimativa da variância da população (comum) da qual as várias amostras foram obtidas. (3) A partir da fórmula geral: 14 A variância para cada uma faz três amostras é Então A estimativa resultante da variância da população é chamada de erro médio quadrático (MSE) e está baseada somente nas diferenças internas dos grupos (Kazmier, 2007). Dessa forma, MSE = 37,3. (4) Se a hipótese nula é falsa, então o valor esperado de MSTR é maior que MSE, sendo apropriado um teste para a hipótese nula. Isso se deve ao fato de essencialmente, quaisquer diferenças entre as médias da população inflarão MSTR enquanto não terão efeito sobre MSE, que está baseado somente nas diferenças internas dos grupos. A partir dos graus de liberdade ( ) do numerador e denominador, e da significância (α), em tabelas de Valores de F Excedidos com Probabilidades de 5% e 1%, é possível encontrar o valor de Fcrítico. (5) Cálculo da razão F 15 Como a estatística F calculada (3,35) não é superior ao valor crítico de F (3,88), a hipótese nula de que as pontuações médias para os três métodos de instrução são mutuamente iguais não pode ser rejeitada com o nível de significância de 5%. É importante ressaltar que existem algumas condições básicas que devem ser consideradas para se efetuar uma análise da variância, são elas: As amostras devem ser aleatórias e independentes; As amostras devem ser extraídas de populações que sigam o modelo de uma distribuição normal; As populações devem ter variâncias semelhantes. 3.1.5 Correlação e Regressão Salienta-se aqui, sucintamente em que consistem as técnicas de correlação e regressão, é importante reiterar que devido aos objetivos dessa redação as técnicas serão apresentadas de forma trivial. Segundo Albuquerque (ALBUQUERQUE, 2010) muitas vezes, na prática, necessita-se estudar o relacionamento de duas variáveis, coletadas como pares de valores, para resolver questões, como por exemplo: - O sucesso de um emprego pode ser predito com base no resultado de testes: - Quanto maior for a produção, maior será o custo total. - Quanto maior for a idade de um imóvel, menor será seu preço de venda. Problemas como esses podem ser estudados através de uma análise de correlação simples, onde podemos determinar a “força” do relacionamento entre as duas variáveis estudadas. As variáveis estudadas serão: X, denominada de variável independente, e Y, denominada de variável dependente. 16 Se o relacionamento entre X e Y for consistente e necessitamos fazer uma predição para o valor de Y, conhecido um valor de X, através de uma fórmula matemática adequada, podemos aplicar a chamada análise de regressão simples. 3.1.6 Inferência Bayesiana A Inferência Bayesiana ou simplesmente Estatística Bayesiana, recebe esse nome em homenagem a Bayes, um estatístico do século retrasado, pela interpretação que se deu ao teorema que leva seu nome. A apresentação dessa técnica se faz recorrente à sua utilidade na Análise de Decisões. Em linhas gerais diz-se que a Inferência Estatística (salientada anteriormente) representa um caso extremo da Estatística Bayesiana, ressaltando que ambas as abordagens tem seus campos específicos de aplicação, razão pela qual não se deve esperar que um dos enfoques venha a prevalecer sobre o outro (BEKMAN, COSTA NETO, 1980). A equação 3.1.1 demonstrada abaixo apresenta a forma comum do Teorema de Bayes. P( AK \ B) P( AK ) P( B \ AK ) n P( A ) P( B \ A ) i 1 i (eq. 3.1.1) i Essa expressão pressupõe uma partição {Ai}, i = 1,2,..., n de eventos mutuamente exclusivos e um evento B qualquer de cuja ocorrência passou-se a ter ciência. O teorema fornece a distribuição de probabilidade dos eventos Ai posterior a ocorrência do evento B. 3.1.7 Estatística Multivariada O estudo e interpretação dos resultados de um determinado conjunto de dados muitas vezes envolve a análise simultânea de diversas variáveis, constituindo-se desta 17 forma um trabalho que, além de complexo e trabalhoso, é suscetível a interpretações errôneas e a perdas de informações relevantes. Desta forma, o emprego de métodos multivariados (HAIR et. al., 2005), destaca-se como uma importante ferramenta para o tratamento de um grande número de dados. Existem vários métodos de análise multivariada com finalidades bem diversas entre si. Assim, antes da realização da análise, é necessário saber que conhecimento se pretende gerar. Ou melhor, o que se pretende afirmar a respeito dos dados. Argumentase que quando o interesse é verificar como as amostras se relacionam, ou seja, o quanto estas são semelhantes segundo as variáveis utilizadas no trabalho, destacam-se dois métodos que podem ser utilizados: a análise por agrupamento hierárquico (HCA) e a análise por componentes principais (ACP). A seguir é apresentado cada uma das técnicas multivariadas citadas, de modo a elucidar a forma de abordagem de cada uma e, a aplicação nesse estudo documental. 3.1.7.1 Análise de Componentes Principais (ACP) A ACP é um caso particular da Análise de Fatores (AF), sendo que a Análise fatorial é uma técnica multivariada de interdependência em que todas as variáveis são simultaneamente consideradas, cada uma relacionada com as demais, a fim de estudar as inter-relações existentes entre elas, buscando a sumarização das variáveis. Corrar e colaboradores (Corrar et al., 2007) argumentam que o objetivo da AF é encontrar uma maneira de condensar a informação contida nas variáveis originais em um conjunto menor de variáveis estatísticas (fatores) com uma perda mínima de informação, isto é, sumarizar os dados por meio da combinação entre as variáveis e explicar a relação entre elas. A principal diferença entre a ACP e a AF é que a Análise de Fatores calcula, além dos fatores comuns, os fatores específicos, ou seja, fatores comuns explicam a variabilidade comum a toda a base de dados, e os específicos explicam a parte da variabilidade de cada variável medida que não é explicável pela sua inter-correlação com as outras variáveis medidas (Echalar, 1991). Uma variabilidade específica é devida 18 provavelmente a uma origem independente de todas as outras variáveis. A ACP, por sua vez, tenta através de fatores comuns (no caso chamado componentes) explicarem o máximo da variabilidade da base de dados. Nela uma variável independente das demais surge naturalmente na forma de uma componente altamente correlacionada com essa variável e com mais nenhuma outra. As correlações entre o grau de impacto da aplicação e as famílias de técnicas estatísticas podem ser resultado de fatores, tais como: aplicação mais trivial, modelagem matemática mais complexa, aplicação específica, interpretação dos resultados, etc. 3.1.7.2 Análise de Agrupamento Hierárquico (“Clusters”) A análise de agrupamentos é uma técnica analítica para identificar subgrupos significativos de indivíduos ou objetos. Especificamente, o objetivo é classificar uma amostra de entidades (indivíduos ou variáveis) em um pequeno número de grupos mutuamente excludentes, com base nas similaridades entre as entidades. A análise de agrupamentos geralmente envolve pelo menos três passos. O primeiro é a medida de alguma forma de similaridade ou associação entre as entidades, para determinar quantos grupos realmente existem na amostra. Em geral utiliza-se de conceitos geométricos de distância para medir esta similaridade entre as referidas entidades (detalhada adiante). O segundo é o próprio processo de agrupamento, nas quais entidades são particionadas em grupos (agrupamento). O último passo é estabelecer o perfil dos indivíduos ou variáveis para determinar sua composição (HAIR et. al., 2005). Uma das questões que a análise de “clusters” procura responder é: Como medir a semelhança entre as entidades? A resposta está no conceito de “semelhança”, ou seja, duas entidades são consideradas semelhantes se seus perfis são próximos, em termos das variáveis ou dos indivíduos utilizados (Corrar et al., 2007). Outra questão de grande importância colocada na análise de agrupamentos é: Após ter efetuado o agrupamento, como descrever os clusters e saber se eles são reais e não produto de um simples artifício estatístico? Corrar e colaboradores (Corrar et al., 19 2007) salientam que é fundamental ter peculiar cuidado na seleção das variáveis que vão caracterizar cada indivíduo, afirmam também que neste tipo de análise, não existe qualquer tipo de dependência entre as variáveis, isto é, os grupos configuram-se por si mesmos sem necessidade de ser definida uma relação causal entre as variáveis utilizadas. Como foi revelado anteriormente, na análise de “clusters”, utilizam-se de conceitos essencialmente geométricos para se medir (des)semelhanças entre as variáveis. Nesse tipo de análise as variáveis são agrupadas considerando-se as suas distâncias quando colocadas em um espaço m dimensional, tendo como coordenadas os valores das variáveis medidos para cada um dos n indivíduos. Duas variáveis são consideradas semelhantes quando a distância geométrica entre elas é pequena. Assim como na análise de componentes principais (ACP), na análise de “clusters” a base de dados é previamente normalizada para média zero e variância um, evitando dessa maneira efeitos da métrica. Argumenta-se que quando o agrupamento se dá através das distâncias entre os indivíduos, medidas no espaço das variáveis, este é chamado de “Agrupamentos por Casos”. Todavia, na maioria dos casos é mais elucidativo proceder ao “Agrupamento por Variáveis”, onde as m variáveis são representadas no espaço n dimensional dos indivíduos. O agrupamento das variáveis, através da medida de suas distâncias neste espaço, fornece qualitativamente os grupos das variáveis mais fortemente correlacionadas (Gerab, 1996). Existem diversas maneiras de se calcular as distâncias nos espaços das variáveis, ou das amostras, a saber, distância euclidiana, distância euclidiana quadrática, distância “city block”, distância Chebychev e distância Power, etc. Uma importante característica dos procedimentos hierárquicos é que os resultados de um estágio anterior são sempre incluídos dentro dos resultados dos estágios seguintes, de forma similar a uma árvore (Corrar et al., 2007). Corrar e colaboradores argumentam, também, que, por serem formados somente pela união de grupos já existentes, qualquer membro de um grupo pode seguir o curso de seus outros membros em uma linha contínua até o seu início, na qualidade de uma observação individual. 20 Na representação desse processo, utiliza-se uma representação gráfica dos resultados para visualizar os agrupamentos. Essa representação é denominada dendograma. 3.1.8 Famílias de técnicas estatísticas De modo a elucidar de maneira clara e objetiva o que cada uma das famílias de técnicas estatísticas apresentadas anteriormente limita, na tabela 3.3 abaixo são apresentados de forma resumida os métodos estatísticos que são abordados por cada uma delas. Tabela 3.3: Famílias estatísticas e os métodos abordados. Família Estatística Métodos Estatísticos ED - Estatística Gráficos, tabelas, ogivas, medidas de posição e Descritiva dispersão, momentos, etc. Amostragem, distribuições amostrais das estatísticas, ajustes de funções, estimação por ponto DA - Distribuições e intervalo para médias, proporções, distribuições z, Amostrais t, χ2, F, etc. TH - Testes de Testes de Hipóteses para médias, Hipóteses proporções, variâncias, etc. AV ou ANOVA - Comparações múltiplas, ANOVA, MANOVA, etc. Análise de Variância Correlação linear, coeficientes de correlação e CR - Correlação e determinação, regressão Regressão linear múltipla, etc. polinomial, regressão 21 IB - Inferência Aprendizagem Bayesiana aplicações, etc. bayesiana, redes bayesianas, Análise de fatores comuns, análise de componentes EM- Estatística principais, agrupamento, análise discriminante, multivariada correlação canônica, planejamento fatorial, etc. Fonte: Autor. 3.2 A Engenharia Química Engenharia é a aplicação de conhecimentos científicos e empíricos, e certas habilitações específicas, à criação de estruturas, dispositivos e processos para converter recursos naturais em formas adequadas ao atendimento das necessidades humanas (FERREIRA, 2001). Sob esta ótica, a engenharia química é um ramo da engenharia que a partir de conhecimentos em química, biologia, física e matemática é capaz de projetar, construir e operar plantas químicas de matérias-primas em produtos finais através de processos químicos, biológicos ou físicos, denominados Operações Unitárias. Em uma definição mais formal fornecida pelo American Institute of Chemical Engineers (AIChe), “A Engenharia Química dedica-se à concepção, desenvolvimento, dimensionamento, melhoramento e aplicação dos Processos e dos seus Produtos. Neste âmbito inclui-se a análise econômica, dimensionamento, construção, operação, controle e gestão das Unidades Industriais que concretizam esses Processos, assim como a investigação e formação nesses domínios”. A engenharia química teve seu início na Inglaterra, no entanto, impelida primeiramente pelo petróleo e indústrias químicas pesadas, e mais tarde pela indústria petroquímica, com a produção de plásticos, borracha sintética e fibras sintéticas a partir do petróleo e gás-natural, essa área da engenharia sofreu seu desenvolvimento principalmente nos Estados Unidos. No início do século passado, foram desenvolvidos os processos físicos de separação tais como destilação, absorção e extração, os quais foram combinados os 22 princípios de transferência de massa, fluidodinâmica e transferência de calor com a finalidade de projetar equipamentos (UNIOESTE, 2010). Os projetos nessa área do conhecimento baseiam-se em três leis fundamentais: conservação de massa, conservação de energia e conservação de quantidade de movimento. Sendo que a transferência de massa e calor entre os processos são determinados a partir da aplicação das leis fundamentais da Física. Sendo que isso tudo, é claro, ocorre com a utilização de princípios da termodinâmica, cinética química e fenômenos de transporte. Os profissionais dessa área do conhecimento são, tradicionalmente, os Engenheiros do Processo que, com tal, têm a missão de transpor a química da escala laboratorial para a escala industrial, de modo a permitir a produção de produtos de uso comum à sociedade em grande escala. O campo de atuação do Engenheiro Químico é amplo e diversificado, sendo regulamentado pelo CREA (Conselho Regional de Engenharia, Arquitetura e Agronomia) ou pelo CRQ (Conselho Regional de Química), dependendo da área específica de atuação do profissional. 3.2.1 A Atual Engenharia Química A atual Engenharia Química está passando novamente por transformações, a necessidade de desenvolver produtos de alto valor agregado em pequena escala (ex: antibióticos), requer o desenvolvimento de novas metodologias de separação. Para atender a essa demanda de desenvolvimento, o Engenheiro Químico tem-se utilizado cada vez mais dos benefícios da informática para facilitar no desenvolvimento de projetos. A aplicação dos modelos matemáticos que representam fielmente os diversos fenômenos físico – químicos envolvidos, bem como o próprio processo, podem ser resolvidos e simulados no computador para apresentar o comportamento de uma indústria ou parte dela, proporcionando a otimização e compreensão dos mecanismos envolvidos. 23 A simulação possui também a vantagem de se minimizar gastos com matéria prima no teste de novas tecnologias, modos de operação, treinamento de pessoal, etc (UNIOESTE, 2010). 3.2.2 Áreas de atuação do Engenheiro Químico A seguir, são apresentados alguns exemplos na qual a atuação desse engenheiro está direta ou indiretamente relacionada. São elas: Tratamento da qualidade das águas, Produção de produtos de higiene e cosmética, Produção de alimentos e bebidas em geral, Busca por fontes renováveis de energia, Produção de tintas, cerâmicas e vidros, Fármacos, Plásticos. Além disso, destacam-se como áreas recentes na Engenharia Química: desenvolvimento de novos materiais, utilização da biotecnologia na obtenção de produtos pelo uso de microrganismos ou enzimas, desenvolvimento de tecnologias limpas (não poluentes), meio ambiente, controle automático de processos, dentre outras 3.3 Software SPSS O SPSS (Statistical Package for the Social Sciences) é uma poderosa ferramenta informática que permite realizar cálculos estatísticos complexos e visualizar os seus resultados, rapidamente. Não obstante, dois óbices interpõem-se entre as boas intenções do utilizador e o seu objetivo: saber que teste estatístico utilizar para responder às suas 24 questões; e interpretar corretamente os resultados do cálculo estatístico efetuado. (PEREIRA, 2006). Os pacotes de programas estatísticos (statistical packages) têm a função de ajudar o pesquisador na fase de análise de dados. Consistem em programas complexos que funcionam sob o controle do usuário. Portanto, é de grande importância dominar os programas de cada pacote estatístico para fazer um bom uso dos recursos oferecidos. Existem muitos outros pacotes de programas estatísticos aplicados as ciências sociais, dentre eles cita-se o SPAD, SAS, STATGRAPHICS, EQS, SCA, BMDP, MDS, CLUSTAN, LISREL 8, CHAID (vale lembrar que vários destes programas já estão incorporados à módulos do SPSS). Contudo, na realização das análises desse trabalho escolheu-se o SPSS, por ser um dos mais utilizados no Brasil, e ser um dos mais freqüentemente citados em artigos científicos das áreas de conhecimento que utilizam a estatística multivariada. 4. RECURSOS MATERIAIS Os recursos materiais que foram utilizados no desenvolvimento desse projeto de Iniciação Científica são: Bibliografia sobre artigos acadêmicos na área da engenharia química, a citar Brazilian Journal of Chemical Engineering, disponível na biblioteca da FEI por intermédio das bases assinadas de periódicos. Bibliografia sobre estatística básica, inferencial, multivariada e bayesiana, disponível na biblioteca da FEI. Software SPSS (Statistical Package for the Social Sciences). 5. METODOLOGIA DE ESTUDOS 5.1 Estatística 25 Pesquisar é uma tarefa que exige conhecimento, concentração para obter resultados com o menor índice de erros, imparcialidade do pesquisador na tomada de decisões que possa influenciar nos resultados, busca incessante pela melhor maneira de elaborar um trabalho e, acima de tudo, organização. Assim todo pesquisador deve ter disciplina, saber o que está procurando, aonde deve buscar e, qual a melhor maneira de interpretar os resultados obtidos. Em consonância com o que foi exposto anteriormente, é interessante ressaltar que esse trabalho exigiu muita disciplina e imparcialidade na avaliação dos artigos estudados, pois era fundamental que os resultados se apresentassem, o mais possível, isentos de qualquer influência do pesquisador. Dessa forma, para tentar suprimir a parcialidade nos resultados, foi necessário estar apto a classificar uma técnica estatística quando aplicada em uma pesquisa (artigo) e, além disso, apresentar um grau de mensuração para a sua importância e para a intensidade da sua utilização no contexto da pesquisa. A qualidade dos resultados obtidos só foi possível devido a um intenso programa de estudos, que visou desde o início capacitar o aluno (pesquisador) para a correta identificação da técnica estatística aplicada na pesquisa (artigo em análise) e, então mensurá-la. Para isso, os livros textos básicos adotados como referências para os estudos na área de estatística e estatística multivariada são o “Estatística” de Pedro Luiz de Oliveira Costa Neto (COSTA NETO, 1977) e, o “Análise Multivariada de Dados” (HAIR et. al., 2005)4, respectivamente. 5.2 Escolha do Periódico O presente estudo é uma análise documental de artigos acadêmicos publicados em periódicos de alcance internacional na área de engenharia química, uma vez que a análise documental “busca identificar informações factuais nos documentos, a partir de questões ou hipóteses de interesse” (CAULLEY, 1981). Sob essa ótica, a metodologia adotada para cumprir com êxito este trabalho consistiu em definir como base de dados uma revista científica com nível internacional, 26 pertinente à área de eng. química, que abordasse as distintas subáreas desta engenharia, capaz de representar a realidade brasileira da produção acadêmica na área ao longo de ao menos uma década. Para definir o periódico a ser utilizado no desenvolvimento desse projeto foram analisadas diversas publicações. Os quesitos para a escolha do periódico a ser investigado foram: número de volumes publicados ao ano, número de artigos publicados em cada volume, tipo de abordagem dos artigos, disponibilidade de acesso no Centro Universitário da FEI, período de existência da publicação e representatividade da pesquisa realizada no Brasil. Aplicados estes critérios o periódico selecionado para o estudo foi o Brazilian Journal of Chemical Engineering (BjChE). Este jornal é uma publicação da Associação Brasileira de Engenharia Química, publicada desde 1997, com o lançamento de quatro volumes por ano, cada um deles contendo entre uma e duas dezenas de artigos científicos abordando as distintas subáreas da eng. química. 5.3 Conhecimentos prévios em Engenharia Química A leitura de uma determinada área do conhecimento exige além de tudo, ciência do assunto abordado, por exemplo, quando se lê uma matéria na área de economia, depara-se com termos singulares tais como: inflação monetária, juros capitalizados semestralmente, taxa selic, entre outros. Essa nada mais é a linguagem utilizada pelos economistas para definir alguns parâmetros e informar sobre questões relativas à sua área. Nessa pesquisa não é diferente, ao ler um artigo técnico na área de engenharia química, corriqueiramente depara-se com termos como: Termogravimetria (TG), Espectro de RMN, reator de mistura perfeita (CSTR), condensador de refluxo, etc. Essa é a linguagem utilizada no segmento da química para citar técnicas de análises, componentes em uma planta química, instrumentos, entre outras coisas. E para determinadas pessoas de áreas distintas do conhecimento ou até mesmo com pouca carga horária de curso na área química, esses termos podem soar estranhos. 27 Nesse sentido a garantia do correto entendimento dos artigos, podendo salientar em qual subárea da química o mesmo se enquadra, além de compreender fórmulas, citações, etc.; foi assegurado pelo conhecimento do aluno (pesquisador) na área, que cursa neste momento o oitavo ciclo de eng. química (penúltimo ano). Ainda nessa temática, por se tratar de artigos publicados em âmbito internacional a língua utilizada é o inglês, contendo também a terminologia específica a esta área do conhecimento. A compreensão do inglês técnico foi elucidada através do constante contato com os termos encontrados nos artigos lidos e, com o auxílio de um sucinto Dicionário Técnico da Universidade Federal de Minas Gerais (UFMG). 6. PREPARAÇÃO DO CADASTRO 6.1 Consolidação do Cadastro Encontra-se aqui o ponto crucial deste trabalho, haja vista que elaborar um cadastramento dos artigos de modo que as informações se apresentassem de forma clara e objetiva foi de suma importância para a representatividade desta pesquisa. Assim o cadastro tinha de permitir a inserção dos tópicos importantes para a análise, assegurando o entendimento de todos, garantindo o êxito na apresentação dos resultados, e possibilitando comparações objetivas entre os distintos artigos avaliados. Nessa esfera, muitos foram os esforços até a consolidação de um cadastro que fosse prático, funcional e conciso. Os primeiros testes foram realizados com o software Microsoft Office Access a fim de construir um banco de dados que registrassem todas as informações necessárias, a saber: título, autores, breve descritivo do assunto discutido, registro do artigo (local de publicação, volume da revista publicado, número da revista, página inicial e final, data de publicação), subárea da química a que se refere, presença de técnicas estatísticas, tipo de técnica estatística empregada e qual sua relevância no contexto do artigo estudado. No início o problema na elaboração de um cadastro demonstrava-se resolvido, isto porque realizado os testes no Access era possível notar um cadastro, capaz de 28 apresentar os resultados de maneira clara e objetiva. Algumas objeções foram feitas e, salientadas aqui: Os dados de cada artigo eram apresentados isoladamente em uma única página, era possível ver somente um cadastro por vez, dessa maneira dificultava na comparação dos resultados com os demais artigos, além disso, para a citação de um artigo em separado em um texto seria necessário copiar dado por dado desse artigo na respectiva página de cadastro no Access. Um olhar mais atento para os objetivos desta pesquisa fez necessária a procura por um modelo de cadastro mais sucinto, era preciso ter praticidade para a comparação de resultados além de visualização rápida de como a pesquisa estava evoluindo. Uma segunda etapa de testes foi realizada com o software Microsoft Office Excel e, aí sim, através de um modelo simples e prático pode-se representar toda a evolução da pesquisa. 6.2 Modelo de Cadastro Para facilitar a compreensão do modelo de cadastro realizado e, também devido a extensão da planilha criada, serão utilizadas as figuras parciais enumeradas de 6.1 à 6.4 apresentadas a seguir para explicação, de modo que cada figura exiba em sequência uma parte da planilha elaborada. Figura 6.1: Apresentação dos campos Código, Autor ou autores, Nome do artigo. 29 Na figura 6.1 demonstrada anteriormente tem-se três campos exibidos como cabeçalhos, são eles: Código, Autor ou autores, Nome do artigo. O campo designado “Código” apresenta o número do artigo apresentado na revista, o volume da revista e, o número da mesma no ano, por exemplo, a04v25n4, indica que o artigo é o quarto escrito na revista (do início para o final da revista), foi publicado no volume vinte e cinco desta publicação e, no quarto volume daquele ano. Além disso, repare que esse campo aparece com uma formatação diferente, ou seja, esta sublinhada e em azul, isso significa que ele apresenta o link para o artigo em questão, basta um clique em cima do código do artigo para que o mesmo seja aberto para a leitura (hiperlink). O campo denominado “Autor ou autores” apresenta o sobrenome de cada autor do artigo, por exemplo, para o artigo apresentado com o código a04v25n4, os autores são J. J. Marques; R. R. Souza; C. S. Souza; C. C. Rocha e, são apresentados nesse campo por Marques e colaboradores (Et. al.). De modo análogo o campo “Nome do artigo”, como o próprio nome diz, é o título do artigo, isto é, para o artigo utilizado como exemplo anteriormente, o nome é “Attached biomass growth and substrate utilization rate in a moving bed biofilm reactor”. O resumo de cada artigo não aparece em uma célula à parte, mas sim, na forma de comentário na própria célula em que se encontra o título do artigo, note um triângulo vermelho no canto superior dessa célula, essa simbologia indica a presença de comentário e, para visualizá-lo basta ir com a seta do mouse em cima desse símbolo. A figura 6.2 abaixo apresenta o modelo de resumo para um artigo. 30 Figura 6.2: Modelo de resumo para um artigo. Na figura demonstrada anteriormente é possível notar quatro campos além dos comentados, são eles: Nome do periódico, Local de publicação, Volume e Número. O campo “Nome do periódico” fornece o título do periódico no qual o artigo foi publicado, sendo que nessa pesquisa todos os artigos são extraídos do Brazilian Journal of Chemical Engineering, o campo “Local de publicação” indica o local de origem da pesquisa e, os campos “Volume” e “Número”, como se salientou fornece o número da publicação e o número da revista no referido ano. A inclusão destes campos propicia uma futura extensão deste cadastro a outros periódicos. A figura 6.3 apresenta a última parte referente ao cadastro de artigos, e é possível observar três campos, que são: Página inicial e final, Data de publicação, Área da química abordada no artigo. Elas apresentam o número da página na qual começa e termina o artigo no periódico, a data de publicação do periódico e, subárea da química abordada no artigo, respectivamente. 31 Figura 6.3: Apresentação dos campos Página inicial e final, Data de publicação, Área da Química abordada no artigo. A segunda etapa desse cadastro refere-se às famílias de técnicas estatísticas utilizadas na elaboração da pesquisa discutida em cada um dos artigos analisados, ou seja, denomina-se aqui, o “core business” desta análise documental, uma vez que o interesse é justamente procurar entender se houve (ou não) aumento no uso dessas famílias de técnicas estatísticas nessa área da engenharia. A figura 6.4 demonstrada a seguir indica as famílias de técnicas que foram identificadas nesse estudo. O TRABALHO UTILIZA: ED DA TH AV CR IB EM 5 2 1 1 4 1 1 4 1 4 1 5 1 1 2 1 1 1 4 1 1 Figura 6.4: Famílias de técnicas estatísticas identificadas nessa análise documental. Na figura anterior é de fácil visualização que as técnicas estatísticas identificadas nesse estudo são: Estatística Descritiva, Distribuições Amostrais, Testes de Hipóteses, Comparação de várias médias, Correlação e Regressão, Inferência Bayesiana, Estatística Multivariada. 32 Na mesma figura observa-se também, a presença de alguns números distribuídos embaixo de cada técnica, esses números variam de 1 até 5 dependendo do grau de importância da técnica para a realização da pesquisa que está sendo discutida no artigo em análise. 6.3 Escala de mensuração de importância Para melhor compreensão da escala de medida de importância atribuída na análise nesse trabalho, a figura 6.5 demonstrada a seguir apresenta uma legenda explicativa, que inclusive, é utilizada para consulta em alguns momentos dessa análise documental. Figura 6.5: Legenda da escala de mensuração. Como é possível notar na figura 6.5 apresentada anteriormente a legenda utiliza na escala de mensuração o número “1” quando a técnica estatística não foi utilizada no trabalho em estudo. O número “2” é utilizado quando a técnica foi utilizada somente para apresentação de resultados, por exemplo, um trabalho que utilizou um gráfico concentração vs. tempo para ilustrar a ordem de uma reação, sem maiores influências nos resultados do trabalho, receberia essa numeração na técnica “Estatística Descritiva”, que lida com o tratamento gráfico. O número “3” é usado quando a técnica é utilizada em etapas posteriores do trabalho, ou seja, é quando se emprega a mesma somente para obter um resultado que será utilizado mais tarde como parâmetro no cálculo do resultado final. 33 O número “4” indica que a técnica foi utilizada para fundamentar a conclusão do trabalho, isto é, a mesma é empregada para dar consistência na conclusão do trabalho, é de grande importância na elaboração daquela pesquisa, indispensável para a obtenção de resultados ótimos. O numero “5”, maior atribuição nessa escala de comedimento, implica que a técnica é determinante na conclusão do trabalho, ou seja, sem a aplicação da técnica não é possível a obtenção de resultados para a conclusão da pesquisa, é imprescindível. 6.4 Praticidade da metodologia adotada Em consonância com o que se salientou anteriormente a respeito da metodologia empregada nessas análises, abaixo se apresenta a figura 6.6, que demonstra o visual prático da planilha realizada para cadastrar os artigos estudados nessa análise documental. O TRABALHO UTILIZA: Nome do artigo ED DA TH AV CR IB EM A study of the drop size distributions and hold-up in short kuhni columns 5 2 1 1 4 1 1 Oxygen mass transfer for an immobilised biofilm of Phanerochaete Chrysosporium in a menbrane gradostat reactor 4 1 4 1 5 1 1 Attached biomass growth and substrate utilization rate in a moving bed biofilm reactor 2 1 1 1 4 1 1 Figura 6.6: Visual da planilha utilizada nessa análise documental. Na figura apresentada acima não é difícil notar a praticidade da planilha. A partir de uma visualização rápida já é possível efetuar um comparativo entre as técnicas empregadas em cada um dos trabalhos relatados nos artigos analisados, além disso, é bem clara a visualização das técnicas mais utilizadas nos trabalhos, o grau de importância dessas técnicas e, ainda, a maneira com que os dados estão dispostos tornou prática a inserção desses dados no software SPSS, e permitiu obter estatisticamente os resultados dessa análise documental. Para deixar clara a utilização da escala de medida de importância e, também para facilitar o entendimento desses números na aplicação prática, adotou-se como exemplo o segundo artigo na figura 6.4.1 (de cima para abaixo), cujo nome é “Oxygen mass 34 transfer for an immobilised biofilm of Phanerochaete Chrysosporium in a menbrane gradostat reactor”. Com base na figura acima é possível notar que para esse trabalho o número “4” da escala de medida foi utilizado para as famílias de técnicas “Estatística Descritiva” e “Testes de Hipóteses”, isso indica que essas técnicas foram fundamentais na conclusão do trabalho, ou seja, elas foram indispensáveis para a obtenção dos resultados. Complementando a observação, é notória a utilização do número “5” nessa escala para a aplicação da família de técnica estatística “Correlação e Regressão”, isso representa que sem a utilização dessa família de técnica estatística não seria possível realizar o trabalho em exemplo. E as demais famílias de técnicas que receberam a numeração “1” nessa escala, não foram utilizadas em nenhum momento para a realização do trabalho utilizado como exemplo. De maneira análoga o raciocínio de observação de resultados é a mesma para todos os trabalhos analisados nesse estudo, ou seja, basta olhar no nome do trabalho e notar quais foram as numerações utilizadas em cada uma das técnicas utilizadas para saber quais as famílias de técnicas que foram usadas (ou não) na realização do trabalho e qual o grau de importância na aplicação das mesmas. 7. RESULTADOS 7.1 Imparcialidade na obtenção dos resultados Muitos foram os cuidados tomados na realização das análises no sentido de se obter os melhores resultados, ou seja, foi necessária muita disciplina para que os resultados apresentassem a menor parcialidade possível por parte do aluno (pesquisador) e, as regras adotadas para uma análise de cada artigo fossem iguais para todos. O objetivo maior desse estudo foi retratar a realidade na utilização de famílias de técnicas estatísticas na pesquisa em engenharia química, dessa maneira foi necessário que a escala de mensuração para cada artigo em análise fosse aplicado correta e 35 idoneamente, isto é, não adiantaria utilizar um grau de importância “5” na escala adotada para a aplicação de uma técnica em um trabalho sendo que de fato a mesma se enquadra no “3”, esse tipo de atitude estaria prejudicando na realidade dos resultados e, portanto, na totalidade dessa pesquisa. A imparcialidade na leitura crítica e no cadastramento dos artigos se fez necessária para corroborar os resultados desta pesquisa e, apresentar o que de fato tem acontecido nessa área de pesquisa da engenharia com relação ao uso de técnicas estatísticas. Justificada a importância da imparcialidade do pesquisador nessas análises e o grau de comprometimento com a realidade das análises, acredita-se que o objetivo de expor com clareza e realidade os resultados, foi alcançado, já que de acordo com o cronograma proposto inicialmente, fig. 7.1 abaixo, conseguiu-se desenvolver com êxito a proposta. Fig. 7.1: Cronograma de atividades. 7.2 Apresentação dos resultados Essa análise documental estudou 63 artigos publicados no BJChE, sendo que 30 artigos foram publicados nos volumes 1,3 e 4 do periódico no ano de 1998 e, os demais 33 artigos estudados foram publicados nos volumes 3 e 4 do periódico no ano de 2008. Esses artigos podem ser considerados relevantes para apresentar a evolução do uso das famílias de técnicas estatísticas na pesquisa em engenharia química. Para melhor exposição dos resultados, eles serão apresentados em partes, isto é, serão demonstrados primeiro os resultados de 1998, depois os resultados de 2008, pois 36 dessa maneira pode-se ter uma visão ampla e fácil do que tem ocorrido ao longo de uma década nesse campo de estudos da engenharia. Vale à pena ressaltar também que por ser uma planilha versátil, algumas alterações foram propostas e realizadas ao longo desse estudo, de modo a melhorar na apresentação dos resultados, são elas: eliminação das famílias de técnicas estatísticas, Estimação de Parâmetros e Testes Não- Paramétricos. A primeira família de técnica estatística foi eliminada por estar intimamente correlacionada com a família denominada Distribuição Amostral (DA), então, optou-se por simplificar e englobar essa família à DA. A segunda família de técnicas foi eliminada por não se constatar o uso dela nos artigos estudados. Devido à extensão da planilha adotou-se exibir os resultados da seguinte maneira: As figuras 7.2 e 7.3 apresentadas abaixo demonstram o código do artigo correlacionado a seu respectivo nome, para os artigos publicados no ano de 1998 e 2008, respectivamente. As figuras 7.4 e 7.5 apresentam o código do artigo correlacionado com os resultados obtidos nas análises realizadas para os artigos publicados nos anos de 1998 e 2008, nessa ordem. Dessa maneira a visualização torna-se mais fácil e, para saber a qual artigo a análise está se referindo basta ver o código e correlacionar com o nome do mesmo que está exibido na figura 7.2 ou 7.3. 37 Código a01v15n4 a02v15n4 a03v15n4 Nome do artigo Effect of Mixing Conditions on Flocculation Kinetics of Wastewaters containing proteins and other Biological Compounds using fibrous materials and polyelectrolytes Effect of some extrusion variables on rheological properties and physicochemical changes of cornmeal extruded by twin screw extruder Mass transport properties of a flow-through electrolytic reactor using a porous electrode: Performance and figures of merit for Pb(II) removal a04v15n4 Model of a Process for drying Eucalyptus spp at high temperatures a05v15n4 Preparation and characterization of Ti-Al-Nb alloys for orthopedic implants a06v15n4 Steady-state modeling and simulation of pipeline networks for compressible fluids a07v15n4 The effect of silane coupling agents on a composite polyamide-6/talc a08v15n4 The effect of the addition of invert sugar on the production of cephalosporin C in a fed-batch bioreactor a09v15n4 The manufacute of gloves using RVNRL: Parameters of the Coagulant dipping process a01v15n3 Calculating capacity trends in rotary dryers a02v15n3 Control and stability analysis of the GMC algorithm applied to pH systems a03v15n3 Effect of hydraulic retention time on nitrification in an airlift biological reactor a04v15n3 Evaluation of sugarcane bagasse acid hydrolyzate treatments for xylitol production a05v15n3 Fluiddynamic aspects of gas-phase ethylene polymerization reactor design a06v15n3 Group contribution lattice fluid equation of state: Application to polymer+solvent systems a07v15n3 Relationship between morphology, rheology and glucoamylase production by Aspergillus awamori in submerged cultures a08v15n3 Study of the electrical conductivity of graphite felt employed as a porous electrode a09v15n3 Use of frectional factorial design for selection of nutrients for culturing Paecilomyces variotii in eucalyptus hemicellulosic hydrolysate a10v15n3 Variation of the ethanol yield during very rapid batch fermentation of sugar-cane blackstrap molasses a01v15n1 A method for exergy analysis of sugarcane bagasse boilers a02v15n1 A Statistical Evaluation of the Effects of Process Variables During Catalytic Hydrogenation of Passion Fruit (passiflora edulis) Seed Oil a03v15n1 Adsorption of textile dyes on alumina. Equilibrium studies and contact time effects a04v15n1 Carnauba wax used as an hydrophobic agent for expanded vermiculite a05v15n1 Effects of electrodiffusion on the Pb-Sn eutectic growth a06v15n1 Excess molar enthalpies of 1-octene + dimethylcarbonate or diethylcarbonate or 1,2-propylcarbonate at 363.15 K and 413.15 K a07v15n1 Flooding in pulsed sieve plate extraction columns with mass transfer effects a08v15n1 Hydrodynamic characteristics of fluidized beds containing large polydispersed particles a09v15n1 Integral transform solution for the forced convection of Herschel-Bulkley fluids in circular tubes and parallel-plates ducts a10v15n1 Simulation investigations towards the development of a bacterial biopesticide fed-batch reactor a11v15n1 Taking Variable Correlation into Consideration during Parameter Estimation Fig. 7.2: Título dos artigos analisados e publicados no ano de 1998. 38 Código Nome do artigo a10v25n4 A study of the drop size distributions and hold-up in short kuhni columns Oxygen mass transfer for an immobilised biofilm of Phanerochaete Chrysosporium in a menbrane gradostat reactor Attached biomass growth and substrate utilization rate in a moving bed biofilm reactor Use of solar energy in the treatment of water contaminated with fenol by photochemical processes Comparative assessment of ambient air quality in two urban areas adjacent to petroleum downstream/upstream facilities in Kuwait Behavior and Fluidization of the cohesive powders: Agglomerates sizes approach Effect of processing conditions on the texture of reconstituted cassava dough a03v25n4 a04v25n4 a05v25n4 a06v25n4 a07v25n4 a08v25n4 a09v25n4 a11v25n4 a12v25n4 a13v25n4 a14v25n4 The role of phenols from bagasse vacuum pyrolysis bio-oil in cupper sulfured ore flotation 15 Production of 15N- Enriched nitric acid (H NO3) Dissolution kinetics of ulexite prepared under different calcination temperatures Ca Alginate as scaffold for iron oxide nanoparticles synthesis Dynamic optimization of the benzene extractive distillation unit a16v25n4 a17v25n4 a18v25n4 Design of a multi-model observer-based estimator for fault detection and isolation(FDI) strategy: Application to a chemical reactor The influence of variable operating conditions on the design and exploitation of fly ash pneumatic transport systems in thermal power plants Optimal control of a CSTR process A software for parameter estimation in dynamic models a01v25n3 Electroflotation of emulsified oil in industrial wastes evaluated with a full factorial design a15v25n4 a02v25n3 a03v25n3 a04v25n3 a05v25n3 a06v25n3 a07v25n3 a08v25n3 a09v25n3 a10v25n3 a11v25n3 a12v25n3 a13v25n3 a14v25n3 a15v25n3 a16v25n3 a17v25n3 Anaerobic treatment of wastewater from the household and personal products industry in a hybrid bioreactor Decolorization and removal of cod and bod from raw and biotreated textile dye bath effluent through advanced oxidation processes (AOPS) Rheological characterization of chicory root (Cichorium Intybus L.) inulin solution Mass transfer coefficients in a hanson mixer-settler extraction column Heat transfer studies in a spiral plate heat exchanger for water - Palm oil two phase system Analysis of heat and mass transfer during microwave drying of food products Development of a darcy-flow model applied to simulate the drying of shrinking media Modeling of an industrial drying process by artificial neural networks Polymer solution and lattice theory applications for modeling of asphaltene precipitation in petroleum mixtures Extraction of garlic with supercritical CO 2 and conventional organic solvents Extraction of caffeine, chlorogenic acids lipids from green coffee beans using supercritical carbon dioxide and co-solvents Extraction of citric acid in 2-octanol and 2-propanol solutions containing tomac: An equilibria and a Lser model High-pressure cloud point data for the system glycerol +olive oil + N-butane + AOT Phase stability analysis of liquid-liquid equilibrium with stochastic methods Performance prediction and validation of equilibrium modeling for gasification of cashew nut shell char Reduction efficiency prediction of cenibra's recovery boiler direct minimization of gibbs free energy Fig. 7.3: Título dos artigos analisados e publicados no ano de 2008. 39 Código ED DA TH AV CR IB EM a01v15n4 4 1 1 1 1 1 1 a02v15n4 1 1 1 1 1 1 1 a03v15n4 3 1 1 1 4 1 1 a04v15n4 a05v15n4 a06v15n4 a07v15n4 a08v15n4 a09v15n4 1 1 4 1 4 2 1 1 1 1 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 1 1 1 1 1 1 1 1 1 1 1 5 a01v15n3 a02v15n3 a03v15n3 a04v15n3 a05v15n3 a06v15n3 1 1 5 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 a07v15n3 2 1 1 1 1 1 1 a08v15n3 3 1 1 1 1 1 1 a09v15n3 1 5 1 1 1 1 1 a10v15n3 3 1 1 1 1 1 1 a01v15n1 2 1 1 1 1 1 1 a02v15n1 3 3 1 3 3 1 5 a03v15n1 a04v15n1 a05v15n1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 a06v15n1 2 1 1 1 1 1 1 a07v15n1 a08v15n1 4 3 1 1 1 1 1 1 3 2 1 1 1 1 a09v15n1 2 1 1 1 1 1 1 a10v15n1 a11v15n1 4 2 1 5 1 1 1 1 1 1 1 4 1 1 Figura 7.4 - Grau de impacto da família de técnica estatística na pesquisa em 1998. 40 Código ED DA TH AV CR IB EM a10v25n4 5 2 1 1 4 1 1 a03v25n4 4 1 4 1 5 1 1 a04v25n4 a05v25n4 a06v25n4 2 2 2 1 2 1 1 1 1 1 1 1 4 2 4 1 1 1 1 5 1 a07v25n4 5 3 1 1 3 1 1 a08v25n4 2 1 1 4 1 1 1 a09v25n4 1 1 1 5 1 1 1 a11v25n4 4 1 1 1 1 1 1 a12v25n4 3 3 1 1 5 1 1 a13v25n4 1 1 1 1 1 1 1 a14v25n4 a15v25n4 a16v25n4 1 2 4 1 1 1 1 1 1 1 1 1 1 1 1 1 5 1 1 1 1 a17v25n4 a18v25n4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 a01v25n3 a02v25n3 a03v25n3 3 4 4 3 1 1 1 1 1 3 1 1 1 2 1 1 1 1 5 1 1 a04v25n3 5 1 1 1 1 1 1 a05v25n3 4 1 1 1 3 1 1 a06v25n3 4 1 1 1 5 1 1 a07v25n3 3 3 1 4 1 1 5 a08v25n3 2 1 1 1 1 1 1 a09v25n3 a10v25n3 3 2 1 1 1 1 3 1 5 1 5 1 5 1 a11v25n3 a12v25n3 a13v25n3 2 4 2 1 1 1 1 1 1 1 1 1 1 1 5 1 1 1 1 1 1 a14v25n3 2 1 1 1 1 1 1 a15v25n3 2 1 1 1 1 1 1 a16v25n3 4 1 1 1 1 1 1 a17v25n3 2 1 1 1 1 1 1 Figura 7.5 – Grau de impacto da família de técnica estatística na pesquisa em 2008. 41 Atentando-se para as figs. 7.4 e 7.5 é possível notar algumas diferenças com relação ao uso das famílias de técnicas estatísticas para o desenvolvimento dos trabalhos discutidos, entre os anos de 1998 e 2008, respectivamente. No ano de 1998 foram estudados 30 artigos e desse total, 21 utilizaram alguma família de técnica no desenvolvimento do trabalho e, desses trabalhos que utilizaram estatística, 11 utilizaram pelo menos uma das famílias consideradas nesse estudo com grau “4” e/ou “5” de importância na escala adotada, ou seja, no mínimo uma das famílias de técnicas foi decisiva na discussão dos trabalhos abordados nos artigos. No ano de 2008 foram estudados 33 artigos, sendo que desse total, 29 utilizaram alguma família de técnica no desenvolvimento do trabalho e, 23 utilizaram pelo menos uma das famílias com grau “4” e/ou “5” de importância na escala adotada, isto é, o número de trabalhos que utilizaram estatística com relevância é da ordem de 70%, enquanto que no ano de 1998 era da ordem de 37%. Além do mais, é interessante ressaltar que desse total dos trabalhos estudados de 1998, cerca de 55% utilizaram a família de técnica denominada Estatística Descritiva como relevante, que são técnicas mais triviais, enquanto que em 2008 o uso dessas técnicas foi utilizado com relevância em cerca de 39% dos trabalhos estudados, demonstrando que além de haver aumento no uso da estatística na pesquisa em eng. química, esse aumento está no uso de famílias de técnicas mais sofisticadas. 7.3 Análise Estatística dos Resultados De modo a corroborar as afirmações realizadas a partir dos resultados obtidos, fez-se uma análise mais crítica dos resultados, ou seja, uma análise estatística. Reiterando-se os testes foram realizados com o auxílio do software SPSS, exceto o teste da diferença entre duas proporções de população, cujo aplicativo não foi encontrado no pacote do SPSS. 42 7.3.1 Teste da diferença entre duas proporções de população O primeiro dos testes realizados foi o teste de diferença entre proporções que consiste em verificar se existe (ou não) diferença entre as proporções realizadas e discutidas abaixo. Como se salientou anteriormente em 1998 foi utilizada estatística em 21 trabalhos de 30 estudados, isto é, uma proporção de 21/30 de uso. No ano de 2008 essa proporção foi de 29/33. Além disso, no ano de 1998 utilizou-se alguma família de técnica estatística com alta importância em 11 trabalhos de 30 estudados, sendo a proporção de 11/30 e, para o ano de 2008 essa proporção de uso foi de 23/33. Apesar de serem proporções diferentes é possível que estatisticamente elas não apresentem diferença, isto é, essa técnica é utilizada para provar se realmente houve (ou não) aumento no uso de estatística ao longo dessa década de estudo e, se o uso de famílias de técnicas com importância é maior (ou não). A estimativa reunida da proporção da população, baseada na proporção obtida em duas amostras independentes é dada pela equação 7.1, O erro padrão da diferença entre as proporções usadas em conjunto com o teste da premissa da não diferença é dado pela equação 7.2, A fórmula para o cálculo de z para testar a hipótese nula de que não há diferença entre duas proporções é fornecido pela equação 7.3, 43 A hipótese nula assumida para este cálculo é HO: (p1= p2), ou seja, a princípio foi pressuposto que ambas as proporções não tem diferença e, a partir do cálculo do z e comparação com o zcrítico tabelado em um nível de 5%, foi possível aceitar ou rejeitar a hipótese nula. Para testar a diferença (ou não) entre as proporções de uso da estatística na pesquisa em eng. química entre os anos de 1998 e 2008 (21/30 e 29/33, respectivamente), tem-se n1 = 30; n2 = 33; p1 = 21/30 e p2 = 29/33. Aplicando-se esses valores nas equações 7.1 à 7.3 salientadas acima, tem-se z = 1,753 e, o valor de zcrítico tabelado é 1,645. Como z > zcrítico, existe diferença estatisticamente significativa em um nível de 5%, isso significa que o uso da estatística na pesquisa em eng. química nessa década de estudo aumentou. De maneira análoga para testar a difença (ou não) entre as proporções de uso de alguma família de técnica estatística com alta importância (4 ou 5) entre os anos de 1998 e 2008 (11/30 e 23/33, respectivamente), tem-se n1 = 30; n2 = 33; p1 = 11/30 e p2 = 23/33. E o valor calculado de z dessa vez é igual a 2,854, enquanto que o zcrítico = 1,645. Assim, existe diferença estatisticamente significativa em um nível de 5%, e comprovase, que o uso de técnicas estatísticas tem sido mais determinantes em trabalhos da área de eng. química na última década. 7.3.2 Análise de Componentes Principais (ACP) e Análise de Agrupamento Hierárquico (“Cluster”) Em consonância ao que foi salientado anteriormente, sabe-se que ambas são técnicas de estatística multivariada, sendo a primeira com a finalidade de estudar as inter-relações existentes entre as variáveis, nesse caso, as famílias de técnicas estatísticas, buscando a sumarização e, a segunda uma técnica analítica para identificar 44 subgrupos significativos de indivíduos ou objetos, utilizada para reforçar o resultado da ACP. Aplicando-se a ACP obteve-se uma análise que embora pouco robusta (KaiserMeyer-Olkin = 0,571), reteve dois fatores (valores próprios superiores a 1), utilizando o critério da raiz latente, explicando cerca de 49% variabilidade dos dados (ver figuras 7.6 e 7.7, respectivamente). Atentando-se para a figura 7.8 abaixo, que é uma matriz de 2 componentes principais rodadas pelo método Varimax, é possível notar que um dos fatores retidos relaciona o uso conjunto de abordagens estatísticas mais elementares (Correlação e Regressão; Estatística Descritiva; Testes de Hipótese). O outro fator relaciona o uso conjunto de abordagens mais complexas (Estatística Multivariada; Análise de variância; Distribuições Amostrais; Inferência Bayesiana). Figura 7.6 – Resultados dos testes de Kaiser – Meyer – Olkin, e de esfericidade de Bartlett. Figura 7.7 – Resultado da Análise de Componentes Principais. 45 Figura 7.8 – Matriz de 2 componentes principais rodadas pelo método Varimax. A figura 7.9 apresentada a seguir demonstra de maneira clara como esse agrupamento de famílias de técnicas ocorre no espaço rotacionado. Figura 7.9 – Disposição dos fatores no espaço rotacionado. 46 Conforme mostra o dendograma abaixo (figura 7.10), a análise por Agrupamento Hierárquico destes dados, utilizando a Distância Euclidiana Quadrática e método de Ward para o agrupamento, apresenta plena concordância com os resultados obtidos pela ACP. Esta concordância reforça a existência dos dois fatores acima descritos. Figura 7.10 – Dendograma. 7.3.3 Outras técnicas estatísticas A análise de variância (ANOVA), aplicada aos dados de impacto de cada uma das abordagens estatísticas, identificou diferenças nos seus impactos. O teste de Scheffe (Costa Neto, 1977) forneceu três subgrupos homogêneos, conforme figura 7.11 abaixo. 47 Figura 7.11 – Teste de Scheffe. A abordagem Testes de Hipótese apresentou menor impacto que Correlação e Regressão e que Estatística Descritiva. Esta última, embora sendo uma abordagem elementar, devido a sua freqüência de uso, teve um impacto global maior que as demais técnicas. 8. CONCLUSÃO Verificou-se ao longo deste trabalho, que a metodologia adotada para a construção da base de dados mostrou-se capaz de elucidar os resultados e a evolução da pesquisa como um todo. Conforme se salientou durante essa redação muitos foram os esforços para que os resultados saíssem o mais imparcial possível e, além disso, que todos apresentassem a mesma metodologia de análise, nesse sentido acredita-se que essa pesquisa cumpriu com êxito seus objetivos. 48 A partir dos resultados obtidos nos testes estatísticos, constata-se a grande relevância dos conhecimentos em inferência estatística nos artigos publicados no BJChE, em seus distintos níveis de profundidade. Esta relevância aumentou na última década, tanto na freqüência de utilização da estatística, como no seu impacto para a conclusão dos artigos. Os resultados apontam dois grupos de abordagens muitas vezes utilizadas em conjunto, um contemplando abordagens elementares, em geral discutidas nos cursos de graduação em Engenharia Química, e outro com abordagens mais sofisticadas, raramente tratadas tanto em cursos de graduação como em cursos de pósgraduação na área. A metodologia criada para o desenvolvimento deste trabalho mostrou-se consistente e exeqüível. Aplicada a uma análise real, identificou os principais usos de estatística, seus distintos graus de complexidade e seu aumento recente de utilização na área, e pode ser aplicada a outras áreas do conhecimento com o mesmo objetivo. É interessante ressaltar que uma ampliação da base de dados pode trazer melhores resultados a essa análise documental, no entanto, os resultados obtidos nessa pesquisa já contribuem, para um possível aprimoramento dos cursos de engenharia química do Brasil, tanto de graduação quanto de pós-graduação. Além disso, vale a pena ressaltar nesse momento, que o presente trabalho foi apresentado no XVIII Congresso Brasileiro de Engenharia Química (COBEQ), que se realizou na cidade de Foz do Iguaçu – PR nos dias 19 a 22 de Setembro de 2010. O painel apresentado no Congresso, segue, anexo, a este trabalho. 49 REFERÊNCIAS BIBLIOGRÁFICAS ALBUQUERQUE, V. Pontifícia Universidade Católica do Rio Grande do Sul. Departamento de Estatística. Noções de Correlação e Regressão Linear Simples. Disponível em: http://www.pucrs.br/famat/valter/basica/Correlacao_e_Regressao.doc. Acesso em: 18 de setembrode 2010. BEHARA, R. S.; FONTENOT, G. F. & GRESHAM, A. Customer satisfaction measurement and analysis using six sigma. International Journal of Quality & Reliability Management. v. 12, n. 3, p. 9-18. 1995. BEKMAN, O. R., COSTA NETO, P. L. O. Análise Estatística da Decisão. São Paulo: Edgard Blücher, 1980. Brazilian Journal of Chemical Engineering (BJChE) (ISSN 01046632) is a quarterly publication of the Brazilian Society of Chemical Engineering: BJChE publishes 800 copies per publication. It is indexed/abstracted in: Chemical Abstracts Service, Engineering Index, Scientific Eletronic Library Online, Science Citation Index Expanded (SciSearch®), ISI Alerting Servicessm, Current Contents®/Engineering, Computing, and Technology, International Nuclear Information System, Ulrich's Periodicals DirectoryTM. CASTRO, P. M. M, e. Método de Taguchi: Controle de qualidade com recurso nãoconvencional ao desenho estatístico de Experiências. Instituto Superior de Estatística e Gestão de Informação. Universidade Nova de Lisboa. 1999. CAULLEY, D.N., 1981, Document analysis in program evaluation, (n. 60, Paper and report series of research on evaluation program), Portland, Or. Northwest Regional Education Laboratory. 50 CHIRINOS, H.D.; GUEDES, S.M. L. The Manufacute of gloves using RVNRL: Parameters of the coagulant dipping process. Brazilian Journal of Chemical Engineering. v. 15, n. 4, 1998. COMPARAÇÃO de Várias Médias. 2010. Dispinível em: http://arquivos.unama.br/nead/gol/gol_adm_2mod/estatistica/pdf/ESTA_impresso_aula 13.pdf. Acesso em: 18 de setembro de 2010. Nota de aula. CORONADO, R. B. & ANTONY, J. Critical success factors for the successful implementation of six sigma projects in organisations. The TQM Magazine. v. 14, n. 2, p. 92-99. 2002. COSTA NETO, P. L. de O., Estatística. São Paulo: Edgard Blücher, 1977. DISTRIBUIÇÕES Amostrais. 2010. Disponível em: http://arquivos.unama.br/nead/gol/gol_adm_2mod/estatistica/pdf/ESTA_impresso_aula 09.pdf. Acesso em: 18 de setembro de 2010. Nota de Aula. FERREIRA, A. B. de H. Minidicionário Aurélio, Século XXI Escolar. 4ª ed. rev. ampl. – Rio de Janeiro: Nova Fronteira 2001. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L. e BLAC, W. C. Análise multivariada de dados. 5. ed. Porto Alegre: Bookman, 2005. HURTADO, N. H., Estatística Descritiva. Disponível em: http://www.haanwinckel.com/bioestatistica/aulas/estatisticadescritiva_aula1.pdf. AcessO em: 15 de setembro de 2010. LABORATÓRIO DE QUIMIOMETRIA EM QUÍMICA ANALÍTICA INSTITUTO DE QUÍMICA (LAQQA) – UNICAMP, Campinas, SP, Brasil. Caixa Postal 6154, CEP 13083-970. 51 MENDES, R. S. Simulação de Sistemas Dinâmicos: Análise de Dados. Campinas: Unicamp, 2009. Disponível em: http://www.dca.fee.unicamp.br/~rafael/pos- graduacao.html#IA885. Acesso em: 20 de setembro de 2010. MITCHELL B. The Six sigma appeal. Engineering Management Journal. Feb. p. 4147. 1992. Portal da Engenharia Química: Universidade de Coimbra. O que é a Engenharia Química. Disponível em: http://labvirtual.eq.uc.pt/siteJoomla/index.php?option=com_content&task=view&id=11 3&Itemid=426. Acesso em: 15 de setembro de 2010. SANTOS, A. B.; MARTINS, M. F. Pensamento estatístico: um componente primordial para o sucesso do Programa de Qualidade Seis Sigma. ENEGEP (2004), Florianópolis, SC – Brasil. 2004. SOUZA, N. Escola Superior Agrária de Coimbra: Estatística. Testes nãoparamétricos. Disponível em: http://www.esac.pt/nsousa/est.htm. Acesso em: 22 de setembro de 2010. TADIKAMALLA, P. R. The confusion over six-sigma quality. Quality Progress. Nov. p. 83-85. 1994. VIALI, L. 2010. Graduação, Apostila de Estatística - Testes de Hipóteses. Disponível em: http://www.dca.fee.unicamp.br/~rafael/pos-graduacao.html#IA885. Acesso em: 20 de setembro de 2010. 52