Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP Ana Lucia Tucci Rizzo ([email protected]), Raquel Cymrot Orientadora: Raquel Cymrot ([email protected]) Resumo A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas suposições para estimação de parâmetros das distribuições de interesse. Este artigo apresenta os diferentes métodos de cálculo de intervalos de confiança utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de Confiança Bootstrap t, o Intervalo de Confiança Percentil Corrigido em Relação ao Viés (BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BCa) , além da técnica de Bootstrap para a regressão e realização de testes de hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as situações onde cada método de obtenção dos intervalos de confiança Bootstrap é mais adequado, dependendo do tipo de distribuição, vício e assimetria da estatística do parâmetro estudado. Para aplicação destas técnicas foram realizados seis estudos de caso que possibilitaram a aplicação dos métodos de estimação Bootstrap mais recomendados na estimação dos parâmetros média, variância, proporção e desvio padrão de processos. Estes casos incluíram distribuições simétricas e assimétricas. Quando a distribuição de probabilidades da estatística do parâmetro a ser estimado era conhecida foi também calculado o intervalo de confiança baseado na distribuição de probabilidades do estimador. Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança Abstract The Bootstrap resampling technique is very useful because it does not need many assumptions to estimate parameters of the distributions of interest. This article presents the different methods to calculate confidence intervals by using Bootstrap 1 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica resampling technique in parametric and nonparametric form. Such methods are the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected Accelerated Confidence Interval (BCa), besides Bootstrap technique for regression and hypothesis tests accomplishment by using Bootstrap confidence intervals. Situations were presented wherein each method used to obtain the Bootstrap confidence intervals is more proper, depending on the kind of distribution, bias and skewness of the studied parameter. Aiming at applying these techniques, six studies of case were carried out, enabling the application of the most recommended Bootstrap estimation methods to estimate the parameter mean, variance, proportion and standard deviation of processes. These cases included symmetrical and skewed distributions. When the distribution of probabilities of the parameter to be estimated was known, the confidence interval based on the probability distribution of the estimator was also computed. Key terms: Resampling, Bootstrap technique, Confidence Interval 2 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica INTRODUÇÃO A utilização de técnicas estatísticas no mundo dos negócios vem crescendo cada vez mais, devido principalmente a sua utilidade na comparação de serviços, verificação de qualidade, análise para desenvolvimento de produtos e outros. A técnica de Bootstrap é uma das possíveis técnicas de reamoostragem a serem utilizadas. A reamostragem consiste em sortear com reposição dados pertencentes a uma amostra retirada anteriormente, de modo a formar uma nova amostra. Técnicas de reamostragem são úteis em especial quando o cálculo de estimadores por métodos analíticos for complicado. Reamostrar permite diferentes alternativas para se encontrar desvios padrões e intervalos de confiança através da análise de um conjunto de dados. Existem diversas técnicas de reamostragem que visam estimar parâmetros de uma distribuição de interesse. Uma vantagem em utilizar a técnica de reamostragem Bootstrap é a generalidade com que pode ser aplicada, pois requer que menos suposições sejam feitas. Outras vantagens são que geralmente fornece respostas mais precisas, além de favorecer o entendimento. Muitas vezes a distribuição de probabilidade da estatística de interesse é desconhecida. Nesse caso o Bootstrap é muito útil, pois é uma técnica que não exige diferentes fórmulas para cada problema e pode ser utilizada em casos gerais, não dependendo da distribuição original da estatística do parâmetro estudado. Segundo Davison e Hinkley (1997), repetir um procedimento de análise original com muitas réplicas de dados pode ser denominado método intensivo computadorizado. Para realizar uma estimação através da utilização de Bootstrap é necessária a realização de um número muito grande de reamostragens e o cálculo de diversas estatísticas para cada uma destas reamostragens. Isto exige o auxílio de programas computacionais para realizar as reamostras e os cálculos de forma mais rápida e eficaz. 3 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Esse é um dos motivos pelo qual essa técnica vem se desenvolvendo mais nos últimos tempos, pois com o avanço tecnológico os softwares estão ficando mais práticos, rápidos e acessíveis. A utilização da técnica de Bootstrap não implica que as outras devam ser ignoradas, podendo ser usada como um complemento na argumentação das conclusões obtidas. Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de problemas complexos. Através do uso da técnica de Bootstrap os parâmetros como a média, a variância, a proporção e até mesmo parâmetros menos utilizados como o máximo, mínimo, etc. de uma população podem ser estimados pontualmente e por intervalo. A reamostragem baseada nos dados da amostra mestre é utilizada pela técnica de Bootstrap denominada não paramétrica uma vez que a distribuição de probabilidades da estatística do parâmetro a ser estimado é desconhecida. Através desta técnica é possível obter a distribuição amostral de um parâmetro a partir da amostra original. A forma não paramétrica é a mais utilizada. Entretanto, quando a distribuição de probabilidades das estimativas dos parâmetros de interesse da população da qual a amostra mestre foi extraída for conhecida, outra forma de Bootstrap pode ser aplicada. Esta forma denominada paramétrica consiste em gerar reamostras baseadas na distribuição de probabilidades conhecida utilizando como parâmetros desta distribuição a estimativa dos mesmos obtida através da amostra mestre. Neste caso o interesse será estimar o vício das estimativas dos parâmetros e assim efetuar as correções necessárias (NAVIDI, 2006). Outra utilidade relatada por Hall (1988) é que, ao se comparar o intervalo de confiança obtido através da utilização da técnica Bootstrap com o intervalo de confiança baseado na distribuição de probabilidades conhecida do estimador, se este último tiver sido calculado usando suposições inadequadas, a diferença entre estes dois resultados será gritante, chamando assim atenção em relação ao erro cometido. 4 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Neste artigo serão apresentadas as diversas técnicas de Bootstrap para estimação. Seis estudos de caso também serão realizados. BOOTSTRAP Para realizar o teste utilizando a técnica Bootstrap é preciso colher uma amostra de tamanho n que será denominada amostra mestre. Essa amostra deve ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e não representar bem a população, a técnica de Bootstrap não levará à resultados confiáveis. Hesterberg et al. (2003) afirmam que a amostra mestre representa a população da qual foi retirada. As reamostras desta amostra mestre representam o que se deve obter quando são retiradas muitas amostras da população original. A distribuição Bootstrap da estatística, baseada em muitas reamostras, representa uma distribuição amostral desta estatística. Esta característica faz com que uma das utilidades da técnica Bootstrap seja checar a normalidade da distribuição original da estatística em foco. Para que a aplicação da técnica resulte em valores confiáveis devem ser feitas, a partir da amostra mestre, centenas ou até milhares de reamostras do mesmo tamanho n. A maioria dos autores recomenda a utilização de 1000 reamostras. Segundo Montgomery (2001) o número de reamostragens pode ser estipulado verificando a variação do desvio padrão para a estimativa do parâmetro em questão calculado para as reamostras à medida que estas são realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra Bootstrap estará adequado. É importante que a reamostragem seja realizada com reposição sempre selecionando os valores de forma aleatória. Para a geração destas reamostras as técnicas computacionais são de grande utilidade, pois sem estas, o tempo para que fossem feitas todas as reamostras desejadas de forma manual seria excessivamente grande. 5 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Uma vez geradas as reamostras, deve-se calcular para cada uma delas a estatística solicitada no problema. Essa técnica não altera nenhum valor da amostra mestre, ela apenas trabalha na análise da combinação dos valores iniciais com a finalidade de se obter as conclusões desejadas. A variabilidade presente no Bootstrap é dada pela escolha da amostra mestre e pelas reamostras, sendo a variabilidade devido à escolha da amostra mestre a mais significativa. O desvio padrão da distribuição Bootstrap para a média (também chamado de erro padrão) é uma medida de variabilidade e é calculado da seguinte forma: 2 1 ˆ* 1 ˆ* SEbootstrap = θi − ∑θi ∑ B−1 B (1) * com θˆi igual ao valor da estatística para cada reamostra e B igual ao número de reamostragens realizadas. O asterisco é usado para diferenciar a estatística das reamostras da estatística da amostra original, a qual é representada por θˆ . Algumas literaturas utilizam no primeiro valor do denominador, apenas B ao invés de (B – 1), pois como o número de reamostragens é um valor muito alto, essa alteração acaba ficando praticamente insignificante. A distribuição Bootstrap geralmente tem aproximadamente a mesma forma e amplitude que a distribuição amostral da estatística, porém está centrada na estatística dos dados originais (amostra mestre), enquanto a distribuição amostral está centrada no parâmetro da população. Segundo Montgomery e Runger (2003), uma estatística utilizada para estimar um parâmetro é viciada quando a distribuição amostral não estiver centrada no verdadeiro valor do parâmetro. A técnica Boostrap nos permite verificar o vício olhando se a distribuição Bootstrap da estatística está centrada na estatística da amostra mestre. O estimador do vício da distribuição Bootstrap é: * víciobootstrap = θˆ − θˆ (2) 6 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Segundo González Manteiga, Prada Sánchez e Romo Urroz (1994) uma das aplicações da metodologia Bootstrap é obter intervalos de confiança confiáveis. Há diversas técnicas distintas para o cálculo de intervalos de confiança Bootstrap. Entre as diferentes maneiras de calcular o Intervalo de Confiança pelo método Bootstrap destacam-se o método Bootstrap t, o método Percentil, que pode ser obtido de duas formas diferentes, o Método do Percentil Corrigido em Relação ao Viés, Biased-Corrected Percentile Bootstrap (BCPB) e o Método de Correção de Vício Acelerado, Biased-Corrected Accelerated (BCa). Estas técnicas serão apresentadas a seguir: a) O Intervalo de Confiança Bootstrap t Calcula-se o intervalo de confiança Bootstrap t para uma determinada estatística da seguinte maneira: [ ICbootstrap t = estatística ± t × SEbootstrap ] (3) , sendo n o tamanho da amostra mestre, t encontrado utilizando-se (n-1) graus de liberdade, e SEbootstrap , o desvio padrão bootstrap, calculado utilizando a Equação (1) para a estatística em estudo. A flexibilidade e quase automaticidade do cálculo de intervalo de confiança por esse método é muito boa, porém existe um problema que pode afetar sua eficácia. O intervalo de confiança Bootstrap t realmente só funciona bem quando sabemos que a distribuição da estatística na distribuição Bootstrap é aproximadamente normal e a estatística é pouco viciada. Respeitadas estas condições o intervalo de confiança Bootstrap t pode ser calculado na estimação de diversos parâmetros além da média populacional, como por exemplo, a proporção e o coeficiente de correlação. b) O Intervalo de Confiança Bootstrap Percentil O intervalo de confiança percentil pode ser calculado de duas maneiras: 7 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Segundo Efron (1986), para uma confiança (1 – α)100%, a primeira forma é encontrar o percentil (1 – α/2)100% e o percentil (α/2)100% da média das reamostras da estatística do parâmetro que se deseja estimar. A segunda maneira de se obter o intervalo de confiança percentil utilizando a técnica em estudo é através dos percentis das diferenças dos valores das estatísticas das reamostras em relação ao valor médio desta mesma estatística nas reamostras (MONTGOMERY e RUNGER, 2003). Para estimar um intervalo de confiança para uma estimativa θˆ , calcula-se o * valor destas estatísticas para cada uma das “i” reamostras Bootstrap ( θˆ i ) e a * média dessas estimativas θˆ . Encontra-se então, para cada reamostra “i”, a diferença entre esses valores, isto é: * diferença = θˆ i − θˆ * (4) Para uma confiança de 95%, encontram-se os percentils 97,5% e 2,5% destas diferenças e calcula-se o intervalo de confiança Bootstrap Percentil da seguinte forma: ICbootstrap percentil [ = θˆ − P97,5% diferenças ; θˆ − P2,5% diferenças ] (5) Para verificar se o intervalo de confiança t calculado é confiável podemos compará-lo com o intervalo de confiança percentil. Se o vício for pequeno e a distribuição Bootstrap for aproximadamente normal, os dois intervalos irão apresentar valores muito próximos. Segundo Hesterberg et al. (2003), caso os intervalos de confiança Bootstrap calculados pela t e pelo percentil não tiverem valores próximos nenhum destes métodos deve ser utilizado. Entretanto Efron (1986) afirma que se a distribuição Bootstrap não for aproximadamente normal, mas existir uma transformação monotônica possível que a torne normal, pode-se calcular o intervalo de confiança Bootstrap Percentil para os dados transformados e posteriormente desfazer a transformação para os limites do intervalo encontrado. Isto é possível uma vez que a transformação utilizada foi uma transformação monotônica, portanto o intervalo de confiança Bootstrap pelo 8 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica método Percentil assim calculado coincidirá com o intervalo de confiança Bootstrap pelo método Percentil para os dados não transformados. Se o vício e a assimetria estão presentes de forma muito forte é mais recomendável que se utilize métodos de Bootstrap de correção como o Método BCPB e o método BCa. c) O Intervalo de Confiança Bootstrap BCPB No cálculo do intervalo de confiança BCPB os extremos do intervalo são os percentis da distribuição Bootstrap ajustados para corrigir o vício e assimetria desta distribuição. Por exemplo, para encontrar um intervalo de confiança BCPB com 95% de confiança, é preciso ajustar os percentis que para um cálculo de intervalo de confiança Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de corrigir o vício e assimetria. Se a estatística for viciada para cima o BCPB move os extremos para a esquerda e se a estatística for viciada para baixo o BCPB move os extremos para a direita. Para realizar o cálculo do intervalo de confiança BCPB deve-se primeiramente ordenar as B estimativas θˆi* em forma crescente e calcular a probabilidade denominada p0 de uma estimativa ser inferior à estimativa da amostra mestre ( θˆ ). Esse passo pode ser representado da seguinte forma: [ p0 = P θˆ * i ≤ θˆ ] (6) A partir do valor encontrado p0 é obtido o parâmetro correção do vício z0 que representa a inversa da normal no ponto p0. z 0 = Φ −1 ( p 0 ) (7) O próximo passo é selecionar um nível (1– α)100% de confiança para a zα estimativa do parâmetro e determinar 2 . É então possível obter os percentis PI e PS: 9 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica PI = Φ 2 z 0 − z α 2 (8) PS = Φ 2 z 0 + z α 2 (9) O Intervalo de Confiança BCPB é calculado da seguinte maneira: [ * * IC BCPB = PPI (θˆi ) ; PPS (θˆi ) ] (10) d) O Intervalo de Confiança Bootstrap BCa O método de Correção de Vício Acelerado permite encontrar o intervalo de confiança quando assimetria estiver presente de maneira muito forte. Esse método não difere muito do BCPB sendo esta diferença o fato de o BCa possuir uma constante de aceleração “a” que ajusta o intervalo de confiança em relação à assimetria. Segundo Efron (1986) nesta situação este método é mais indicado que o método BCPB. O intervalo de Confiança BCa é obtido realizando os mesmo passos do cálculo do intervalo de confiança BCPB com os limites PI e PS , porém utilizando um ajuste por meio da constante de aceleração “a”. A obtenção da constante “a” envolve cálculos não triviais, o que leva o Intervalo de Confiança BCa ser mais utilizado quando há algum software estatístico disponível. O programa S-PLUS é citado em vários artigos como, por exemplo, em Pereira et al. (2000). É possível encontrar também alguns programas livres que calculam esta constante. O cálculo do intervalo de confiança BCa é feito através da mesma Equação (10), porém com PI e PS respectivamente iguais a: z0 + zα 2 PI = Φ z0 − 1 − a z0 + zα 2 (11) 10 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica z0 + zα 2 PI = Φ z0 + z0 + z α − 1 a 2 (12) De acordo com Andrews e Buchinsky (2002) é possível determinar a constante “a” de maneira mais simples quando as variáveis aleatórias observadas na amostra mestre forem independentes e identicamente distribuídas. Neste caso: ( θˆ( ) − θˆ( ) ) a= 6 (∑ (θˆ( ) − θˆ( ) ) ) ∑ n i =1 3 . i 3 2 2 n i =1 . (13) i , com θˆ (i ) representando o valor das estimativas do parâmetro estudado para cada amostra “i” que consiste na amostra mestre sem a observação “i” da mesma, com 1 ≤ i ≤ n e θˆ (.) o valor da média das estimativas θˆ (i ) . e) A técnica Bootstrap na Regressão Existem dois procedimentos para se estimar os coeficientes do modelo de regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001). O procedimento de Bootstrap paramétrico denominado Bootstrap dos Resíduos consiste em estimar os coeficientes de regressão para os dados originais e assim gerar os respectivos resíduos para as n observações realizadas. Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*) será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta estimado nos dados originais ( ŷ ). Para cada reamostra são então calculadas as estimativas dos coeficientes de regressão. As médias das estimativas dos coeficientes de regressão para as reamostras serão as estimativas Bootstrap pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil. A coincidência dos intervalos 11 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica tradicionais e Bootstrap confirmará as suposições feitas para a realização da análise de regressão. O procedimento de Bootstrap não paramétrico denominado Bootstrap dos Casos ou Pares deve ser usado quando existe uma transformação nos dados originais de modo que para estes dados transformados possa ser realizada uma regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes serão aproximadas e estas aproximações serão válidas apenas para grandes amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de confiança para os coeficientes da regressão e será útil para checar a validade da aplicação assintótica para os resultados obtidos. Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem compor a amostra mestre. Estes dados originais (que são vetores) devem ser reamostrados. Para cada reamostra são estimados os coeficientes da regressão linear para os dados da reamostra transformados. Intervalos de confiança para os coeficientes da regressão podem ser obtidos pelo método percentil. f) Teste de Hipótese com Intervalos de Confiança Bootstrap Dado um intervalo de confiança calculado por qualquer método Bootstrap com 100(1– α )%, deve-se rejeitar com 100 α % as hipóteses nulas de que o parâmetro estimado seja igual a qualquer valor fora desse intervalo e devese aceitar com 100 α % as hipótese nulas de que este mesmo parâmetro seja igual a qualquer valor dentro do intervalo de confiança Bootstrap (NAVIDI, 2006) g) Outras considerações sobre os estimadores Bootstrap O Bootstrap é muito genérico e, devido a esta generalidade, há mais de um método Bootstrap como solução para um determinado problema. Na maioria das publicações não técnicas em estatística, a forma de cálculo dos intervalos de confiança Bootstrap não costuma ser apresentada. Segundo 12 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica enquête realizada por Hall (1988), o método Percentil é utilizado em mais da metade destas publicações. A maioria dos procedimentos de intervalo de confiança se torna mais precisa quando o tamanho da amostra aumenta. Hesterberg et al. (2003) afirma que um problema que existe nos intervalos de confiança Bootstrap t e Percentil é que esta melhora ocorre de forma mais lenta necessitando de um grande aumento no tamanho da amostra para refletir uma melhora na precisão (na base de 10 para 1). METODOLOGIA Alguns estudos de caso foram realizados para colocar em prática à técnica de reamostragem Bootstrap. Para cada estudo foi coletada uma amostra mestre diferente, seguindo as técnicas de amostragem apropriadas. Foram realizadas 1000 reamostras e calculados os intervalos de confiança Bootstrap segundo as diversas formas convenientes para cada situação. Quando existia uma fórmula de cálculo do intervalo de confiança para a estimativa do parâmetro baseada na sua distribuição de probabilidades (denominado neste trabalho intervalo de confiança padrão), este foi calculado. Os resultados foram então comparados. Para o cálculo dos diversos intervalos de confiança foi utilizada uma confiança de 95%. Apenas no estudo de caso envolvendo o desvio padrão de um controle estatístico de processos a confiança utilizada para os cálculos foi de 99,73%, de acordo com as cartas de controle de Shewhart. Para a realização das reamostras e análises foi utilizado o programa MINITAB. 13 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Estudo de caso 1 - Número de alunos reunidos diariamente em determinado local durante um intervalo de tempo estabelecido Neste caso foi analisada a quantidade de alunos reunidos durante 25 dias no corredor do 2º andar do prédio da Escola de Engenharia da Universidade Presbiteriana Mackenzie em algum horário pertencente ao intervalo das 16:30 h às 16:40 h. O número de alunos foi observado diariamente em um horário sorteado aleatoriamente dentro do intervalo estipulado. A partir desta amostra de tamanho 25, foram realizadas mil reamostragens. Através da ferramenta Bootstrap foi estimado o número médio de alunos presentes naquele determinado local do corredor no horário entre 16:30 h e 16:40 h. Estudo de caso 2 - Transporte utilizado pelos alunos no seu deslocamento diário para a Universidade Foi realizada, no segundo semestre de 2005, uma pesquisa para se estimar a probabilidade de um aluno do curso Engenharia de Produção da Escola de Engenharia da Universidade Presbiteriana Mackenzie utilizar transporte público no seu deslocamento de ida e/ou volta para a universidade. Foi realizada uma amostragem por conglomerado no qual foi sorteado o sexto semestre. Foi perguntado para seus 33 alunos matriculados se eles utilizavam, na maior parte dos dias, transporte público como meio de locomoção para a universidade. Quando a resposta foi positiva a variável foi codificada como 1 e quando negativa a variável foi codificada como 0. Foi então calculada a probabilidade p de o aluno utilizar transporte público. Os 33 dados coletados formaram a amostra mestre. Com base nesta amostra, foram realizadas 1000 reamostras de mesmo tamanho e aplicada à técnica Bootstrap a fim de calcular os intervalos de confiança Bootstrap para a proporção de respostas afirmativas. Estes resultados foram comparados com o 14 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica intervalo de confiança padrão. Foi também calculado o intervalo de confiança Bootstrap para a variância desta proporção. Estudo de Caso 3 - Medição de parafusos Foi selecionada uma amostra casual simples de cinqüenta parafusos pertencentes a uma caixa fechada contendo 200 parafusos de um mesmo lote. Foi realizada a medição destes cinqüenta parafusos no laboratório de física da Universidade Presbiteriana Mackenzie utilizando como dispositivo de medição dimensional um paquímetro digital ajustado em milímetros, devidamente calibrado. Para realizar a amostragem os 200 parafusos pertencentes a uma caixa foram numerados. Destes, foram sorteados cinqüenta parafusos para compor a amostra mestre. A caixa de parafusos representa a população de onde foi retirada a amostra mestre. A partir desta amostra de cinqüenta comprimentos de parafusos, foram geradas mil reamostras de mesmo tamanho. Estudo de caso 4 - Tempo de espera na fila do Benjamim Abrahão Neste caso o objetivo era analisar o tempo de espera desde o momento em que um indivíduo entra na fila da Padaria Benjamim Abrahão situada na praça de alimentação da Universidade Presbiteriana Mackenzie até o momento em que este mesmo indivíduo recebe seu pedido. Os dados foram coletados entre os horários de 19:30 h e 20:20 h de um dia letivo. A coleta dos dados foi feita de forma sistemática, observando-se o intervalo de tempo de espera e atendimento da primeira pessoa de cada três que entravam na fila. O objetivo desse estudo de caso foi obter um intervalo de confiança para média do tempo total de espera e atendimento ao cliente utilizando a técnica de Bootstrap. 15 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Utilizou-se para medição relógios digitais ajustados no mesmo horário e duas pessoas, uma situada na entrada da fila e a outra na saída. A pessoa da entrada distribuía a ficha com o horário em que o indivíduo participante da pesquisa entrava na fila e a pessoa da saída recolhia a ficha e anotava o horário de saída. Foi coletada uma amostra mestre de tamanho 60. A partir desses dados, foram realizadas 1000 reamostras. Estudo de caso 5 – Tempo de processamento de um digestor de vísceras de aves Segundo Ferroli et al. (2002) as fábricas de farinhas e óleos de subprodutos de origem animal estão em processo de evolução e mudanças. Para que estas consigam acompanhar as constantes modificações que ocorrem no mercado, uma de suas principais preocupações é reduzir a emissão de poluentes ao meio ambiente. O digestor é a principal máquina em uma graxaria e está envolvido diretamente no aproveitamento de resíduos de indústrias de transformação de produtos animais. Foi analisado o funcionamento de um digestor existente em uma fábrica onde funcionam seis digestores de vísceras de aves. Os dados para este caso foram retirados do artigo “Fábrica de subprodutos de origem animal: a importância do balanceamento das cargas dos digestores de vísceras” de Ferroli et al. (2002). A variável medida foi o tempo de processamento de um digestor de vísceras de aves. Para cada um dos 43 conjuntos de valores medidos contendo 6 observações cada, foi calculada a amplitude R. Essas 43 amplitudes representaram amostra mestre e a partir destas foram geradas 1000 reamostras. Neste caso a estatística será a estimativa do desvio padrão do processo igual a R onde d2 é um valor tabelado. d2 16 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Este caso é um exemplo de aplicação da técnica de Bootstrap na área de Engenharia de Produção. Estudo de caso 6 - Verificação da adesão dos alunos a um programa de uso racional de água Considerando que a água potável é um recurso raro no planeta, sua economia torna-se absolutamente necessária. A Universidade Presbiteriana Mackenzie, consciente deste problema, vem, desde 2002, implantando um programa de Uso Racional de Água dentro do Campus Itambé. (CYMROT et al.) Várias medidas foram tomadas desde então, dentre elas, destacam-se as seguintes medidas: • Foram registrados, em todos os prédios, todos os pontos de água, como torneiras, bacias, mictórios, chuveiros, etc. • A partir de 2002, foram trocadas torneiras de lavatório por modelos mais econômicos, com fechamento automático de água. Em 2004, cerca de 60% das torneiras já haviam sido trocadas. Segundo a SABESP (Companhia de Saneamento Básico do Estado de São Paulo), esta tal medida resulta em uma economia de consumo em torno de 20%. • No começo de 2003, foi oferecido um curso na SABESP de “caça vazamentos” a todos os funcionários da manutenção, inclusive encarregados. Este curso propiciou a localização de inúmeros vazamentos, sendo então trocadas às tubulações necessárias. Estas mudanças acabaram provocando algumas modificações nas configurações da rede hidráulica do Campus Itambé. • Foram colocados adesivos para conscientização da necessidade de se economizar água através do uso adequado de torneiras e bacias na maioria dos sanitários existentes no Campus Itambé. 17 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Este estudo foi realizado com o objetivo de verificar a adesão dos alunos do curso de Engenharia de Produção da Universidade Presbiteriana Mackenzie em relação ao programa. Foi realizada uma amostragem casual simples e coletados os dados relativos aos cinqüenta alunos sorteados. Três perguntas foram feitas a estes alunos, a saber: - O aluno tinha notado os adesivos com avisos alertando quanto à necessidade do uso racional de água? - O aluno tinha reparado na alteração dos dispositivos de funcionamento das torneiras de modo que estas permanecessem abertas somente o tempo necessário? - O aluno colabora com a campanha procurando economizar a água quando de sua utilização dentro do Campus Itambé da Universidade Presbiteriana Mackenzie? Para cada variável estudada foram realizadas 1000 reamostras a partir das respostas obtidas. RESULTADOS E DISCUSSÃO Estudo de caso 1: Número de alunos reunidos diariamente em determinado local durante um intervalo de tempo estabelecido Ao realizar a análise descritiva para a amostra mestre, verificou-se a existência de alguns possíveis outliers que foram mantidos na amostra. O histograma e o gráfico de probabilidade normal utilizando o método de Anderson Darling para os dados da amostra mestre apresentados nos Gráficos 1 e 2 confirmam a aderência à distribuição Normal (p = 0,362). 18 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Histogram of C1 Probability Plot of C1 Normal Normal 99 Mean 19,52 StDev 3,070 N 25 7 Mean StDev N AD P-Value 95 6 90 80 Percent Frequency 5 19,52 3,070 25 0,387 0,362 4 3 70 60 50 40 30 20 2 10 5 1 0 1 13 15 17 19 21 C1 23 25 27 GRÁFICO 1 - Histograma da amostra mestre 12 14 16 18 20 C1 22 24 26 28 GRÁFICO 2 - Gráfico de probabilidade normal para a amostra mestre A Tabela 1 apresenta a amostra mestre, algumas reamostras, a média e a variância para a amostra mestre e para as reamostras. Cada reamostra foi gerada atribuindo probabilidade igual a 1/25 para cada observação da amostra mestre e realizando a amostragem com reposição. observação amostra mestre 1 24 2 17 3 19 4 20 5 22 6 26 7 18 8 20 9 17 10 19 11 14 12 18 13 25 14 17 15 14 16 23 17 18 18 17 19 22 20 19 21 20 22 21 23 19 24 17 25 22 média 19,5200 variância 9,4267 reamostra 1 reamostra 2 reamostra 3 ... reamostra 1000 25 18 21 22 20 17 25 17 18 17 20 18 19 18 26 22 20 23 21 18 17 17 19 22 19 22 18 20 17 14 14 23 17 26 14 17 19 22 20 17 25 17 22 22 17 21 25 19 22 23 14 18 25 22 18 17 23 19 26 19 17 24 23 17 25 22 17 21 17 22 20 17 19 26 17 19 24 17 21 17 20 17 22 22 17 19 22 25 17 20 20 14 22 18 19 18 14 17 22 18 19,8000 19,9200 20,2400 19,1600 3,2146 3,1612 3,4434 2,5768 TABELA 1 - Amostra mestre, reamostras, média e variância para a amostra mestre e reamostras. Pode-se afirmar que a média da população tem distribuição Normal. Realizadas as 1000 reamostragens com reposição, plotado o histograma (Gráfico 3) e realizado o teste de aderência de Anderson Darling (p = 0,082) para as 19 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica médias das reamostras é possível verificar que a distribuição da estatística média das reamostras Bootstrap se aproxima da distribuição desta mesma estatística na população. Histogram of reamostras Normal Mean StDev N 140 19,50 0,6006 1000 120 Frequency 100 80 60 40 20 0 18,0 18,6 19,2 19,8 20,4 reamostras 21,0 21,6 22,2 GRÁFICO 3 - Histograma das 1000 reamostras das médias Os valores da média e variância da amostra mestre foram respectivamente iguais a 19,52 e 9,4267. O vício calculado para a média foi igual a – 0,0211, considerado pequeno (0,11% do valor da média da amostra mestre). Nestas condições foram calculados os intervalos de confiança para as médias utilizando a técnica de reamostragem Boostrap pelos métodos Percentil = [18,3200 ; 20,6800] e pelo método Bootstrap t = [18,2804 ; 20,7596] que resultaram bem próximos. O histograma das variâncias (Gráfico 4) apresenta uma forma diferente do esperado caso a distribuição fosse Normal e o teste de Anderson Darling (Gráfico 5) forneceu valor de p menor que 0,005. Histogram of variancias Probability Plot of variancias Normal Normal Mean StDev N 100 99,99 9,109 2,337 1000 Mean StDev N AD P-Value 99 80 Percent Frequency 95 60 40 9,109 2,337 1000 1,196 <0,005 80 50 20 5 20 0 2,5 1 5,0 7,5 10,0 12,5 variancias 15,0 17,5 GRÁFICO 4 - Histograma para variância das 1000 reamostras 0,01 0 5 10 variancias 15 20 GRÁFICO 5 - Gráfico de probabilidade normal para a variância das 1000 reamostras 20 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Desta forma os intervalos de confiança Bootstrap pelo método t e Percentil não são muito confiáveis uma vez que a suposição de normalidade não se verificou. Neste caso é aconselhável o cálculo por métodos como BCPB e BCa. O cálculo de intervalos de confiança para a variância através dos métodos BCPB = [5,6034 ; 14,9469] e BCa = [4,1667 ; 15,3657] resultam em valores mais precisos devido a adequação desses à presença de um viés igual a – 0,3173, considerado grande (3,37 % do valor da variância da amostra mestre). O valor da constante de aceleração “a” para a variância é 0,05119. O intervalo de confiança Bootstrap Percentil é [4,7599 ; 13,7515]. Como o vício foi negativo, isto é, a estimativa Bootstrap está subestimando o valor da estatística, pode-se observar que o intervalo de confiança BCPB corrige o intervalo de confiança para a direita. O Intervalo de confiança Bootstrap BCa corrige o intervalo para a direita porém, neste caso, amplia seu tamanho devido ao valor da constante “a”. Os intervalos de confiança padrão para a média [18,2526 ; 20,7874] e para a variância [5,7474 ; 18,2435] apresentaram valores próximos aos dos intervalos Bootstrap. Estudo de caso 2: Transporte utilizado pelos alunos no seu deslocamento diário para a Universidade No Gráfico 6 é apresentado o histograma das proporções obtidas nas 1000 reamostras. O teste de aderência de Kolmogorov Smirnov confirma a aderência à distribuição Normal das proporções estimadas nas 1000 reamostras (p > 0,150). O Gráfico 7 apresenta o Box Plot para as proporções nas 1000 reamostras onde é notada a simetria da distribuição. Foram encontrados quatro possíveis outliers, a saber: 0,8182; 0,7879; 0,3030; 0,2727 mantidos na amostra. 21 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Histograma da proporção de alunos usuários de transporte público 160 Mean 0,5451 140 StDev N 0,08433 1000 Boxplot da proporção de alunos usuários de transporte público 0,8 0,7 100 Proporção Freqüência 120 80 60 40 0,6 0,5 0,4 20 0,3 0 0,32 0,40 0,48 0,56 Proporção 0,64 0,72 0,80 GRÁFICO 6 - Histograma das proporções nas 1000 reamostras 0,2 GRÁFICO 7 - Boxplot da proporção de alunos usuários de transporte público nas 1000 reamostras Como a distribuição é Normal, o intervalo de Confiança Bootstrap t pode ser utilizado e deve coincidir com os intervalos de Confiança Bootstrap Percentil. A amostra mestre apresentou uma proporção estimada de alunos que utilizavam na maior parte dos dias transporte público como meio de locomoção para a universidade igual a 0,5455 com variância da proporção igual a 0,0075. As reamostras apresentaram uma média das proporções igual a 0,5451 com variância da proporção igual a 0,0073. Os intervalos de confiança para a proporção dos alunos que utilizavam na maior parte dos dias transporte público como meio de locomoção para a universidade foram calculados através dos métodos Percentil e Bootstrap t. Os intervalos de confiança para a proporção, calculados através dos três métodos revelaram-se muito próximos, a saber: intervalo de confiança Bootstrap Percentil = [0,3932 ; 0,7273], intervalo de confiança Bootstrap Percentil das Diferenças = [0,3632 ; 0,6973] e intervalo de confiança Bootstrap t = [0,3737 ; 0,7172]. Foi também calculado o intervalo de confiança padrão para a proporção. Para este cálculo foram utilizados os dados da amostra mestre, tendo sido obtido o intervalo [0,3756 ; 0,7153], também bem próximo aos demais intervalos de confiança calculados. O vício encontrado foi de – 0,0004 (0,07% do valor da estatística na amostra mestre). 22 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica O Gráfico 8 apresenta o teste de aderência de Kolmogorov Smirnov no qual não foi confirmada a normalidade da distribuição das variâncias das proporções estimadas nas 1000 reamostras (p < 0,010). gráfico de probabilidade normal da variância da proporção 99,99 Mean StDev N KS P-Value 99 0,007299 0,0003851 1000 0,165 <0,010 Porcentagem 95 80 50 20 5 1 0,01 0,004 0,005 0,006 0,007 variância da proporção 0,008 0,009 GRÁFICO 8 - Gráfico de probabilidade normal para as variâncias das proporções de alunos usuários de transporte público nas 1000 reamostras. Devido à falta de normalidade não é indicado o uso do intervalo de confiança Bootstrap t. O intervalo de confiança para a variância da proporção calculado através do método de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuição de probabilidades da variância é assimétrica e o vício encontrado foi de – 0,0002 (2,67% do valor da estatística na amostra mestre), sendo o estimador tendencioso, a melhor opção é o cálculo dos intervalos de confiança para a variância através dos métodos BCPB e BCa, os quais apresentaram respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para obtenção do intervalo de confiança pelo método BCa o valor encontrado para a constante “a” foi igual a 0,005297. Neste caso a correção realizada foi desprezível. Estudo de Caso 3: Medição de parafusos O Gráfico 9 apresenta o histograma das 1000 médias das reamostras Bootstrap. Pode-se notar a forma muito próxima à Normal. O teste de aderência à distribuição Normal realizado pelo método de Anderson Darling confirma esta hipótese (p = 0,156). 23 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Histogram of parafusos Normal 140 Mean StDev N 120 26,99 0,06374 1000 Frequency 100 80 60 40 20 0 26,82 26,88 26,94 27,00 parafusos 27,06 27,12 27,18 GRÁFICO 9 - Histograma das médias das mil reamostras dos comprimentos dos parafusos A média da amostra mestre encontrada foi 26,9908, sua mediana 27,0050 e sua variância apresentada por 0,2043. É possível verificar a simetria dos dados que compõe a amostra mestre pela proximidade do valor da mediana e o valor da média. Utilizando a técnica Bootstrap, calculou-se os intervalos de confiança para a média e para a variância de forma paramétrica e não paramétrica através do método Percentil. No cálculo do intervalo de confiança Bootstrap Percentil não paramétrico para as médias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo de confiança Bootstrap Percentil das Diferenças foi igual a [26,8657 ; 27,1066]. O Intervalo de Confiança Bootstrap Percentil paramétrico apresentou os seguintes valores [26,8645 ; 27,1035]. Também foi calculado o intervalo de confiança Bootstrap t igual a [26,8627 ; 27,1189]. Como a distribuição das médias dos comprimentos dos parafusos é conhecida, foi possível realizar o cálculo do intervalo de confiança padrão. O intervalo obtido foi [26,8610 ; 27,1206]. A média das médias nas reamostras foi igual a 26,9928. O valor do viés na forma não paramétrica calculado com os dados das reamostras foi igual a 0,0020, considerado pequeno (0,0007% do valor da estatística na amostra mestre). Neste caso os métodos Bootstrap t e Bootstrap Percentil de cálculo de intervalo de confiança são adequados e resultaram em valores próximos. Os intervalos de confiança para variância utilizando a técnica Bootstrap forneceram valores próximos, a saber: intervalo de confiança Bootstrap Percentil 24 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica não paramétrico = [0,1313; 0,2740] e Percentil das Diferenças não paramétrico = [0,1296; 0,2723]. Através da aplicação da técnica paramétrica obteve-se o intervalo de confiança Bootstrap Percentil paramétrico = [0,1363 ; 0,2914]. Supondo a distribuição Quiquadrado para a variância dos comprimentos dos parafusos, foi possível calcular o intervalo de confiança igual a [0,1425 ; 0,3172]. A média das variâncias nas reamostras foi igual a 0,1993. O valor do viés para a estimativa da variância foi igual a – 0,0050 considerado grande (2,45% valor da estatística na amostra mestre). Neste caso é aconselhável o cálculo dos intervalos de confiança para a variância através dos métodos BCPB e BCa, os quais apresentaram respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para obtenção do intervalo de confiança pelo método BCa o valor encontrado para a constante “a” foi igual a 0,043243. Estudo de caso 4: Tempo de espera na fila do Benjamim Abrahão Através da construção do Box Plot, foram encontrados os possíveis outliers 235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na amostra mestre uma vez que tais dados extremos realmente ocorreram. Segundo Prado (1999), o tempo de espera em uma fila tem em geral distribuição exponencial, porém, neste caso como foi computado o tempo de espera, tempo de atendimento e tempo de pagamento, a distribuição resultante não se comportou como exponencial. Deve-se salientar que a forma de pagamento determinou, de maneira marcante, a diferença nos tempos totais computados. Se o comprador utilizava dinheiro a operação era bem rápida, porém, se ele usava algum cartão eletrônico poderia ser consumido um tempo muito maior. O histograma (Gráfico 10) indicou a forma da distribuição do tempo total próxima da Normal. O teste de aderência pelo método de Anderson Darling confirmou a aderência à distribuição Normal (p = 0,809). 25 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Os dados da amostra mestre apresentaram uma média igual a 209,0333. As mil reamostragens foram feitas com reposição e calculadas as estatísticas necessárias para a aplicação da técnica Bootstrap. Os intervalos de confiança para a média foram obtidos pelo método Percentil das Diferenças = [193,9140 ; 223,8027], método Percentil = [194,1488 ; 224,0375] e, sendo a distribuição aproximadamente normal, o cálculo foi realizado pelo método Bootstrap t = [193,9850 ; 224,0817]. Os três intervalos de confiança apresentaram valores próximos. Histograma do tempo de atendimento 120 Mean StDev N 208,9 7,520 1000 100 Freqüência 80 60 40 20 0 192 200 208 216 224 Tempo de atendimento 232 GRÁFICO 10 - Histograma das 1000 médias das reamostras do tempo de espera e atendimento na fila Foi calculado o intervalo de confiança para a média do modo padrão para que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vício presente para o tempo médio de atendimento foi igual a – 0,1152 (0,055% do valor da estatística na amostra mestre), considerado pequeno. Estudo de caso 5: Tempo de processamento de um digestor de vísceras de aves As amplitudes foram reamostradas e calculado o desvio padrão do processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi plotado o histograma que permite verificar a proximidade da distribuição dos desvios padrões do processo com a distribuição Normal. O teste de probabilidade de aderência pelo método de Anderson Darling confirmou esta hipótese (p = 0,537). 26 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica Através da técnica Bootstrap, foram obtidos intervalos de confiança para o desvio padrão do processo pelos métodos Percentil e t. Para o cálculo do intervalo de confiança Bootstrap t foi estimado o desvio padrão do processo da amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os métodos Bootstrap t e Percentil. A proximidade dos intervalos ocorre devido à distribuição ser aproximadamente Normal além do vício calculado pela diferença entre a média do desvio padrão das reamostras do processo e o desvio padrão do processo da amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da estatística na amostra mestre). Estudo de caso 6: Verificação da adesão dos alunos a um programa de uso racional de água As respostas para as perguntas foram codificadas como zero quando negativas e um quando positivas. Através da técnica Bootstrap, foram calculados os intervalos de confiança para a proporção de respostas afirmativas e seus resultados comparados com o intervalo de confiança padrão. Para cada resposta obtida para as três perguntas, foram geradas 1000 reamostras e obtidos os seguintes resultados: Em relação à percepção de adesivos que estavam sendo colados, foi realizado um teste de aderência à distribuição Normal pelo método de Kolmogorov Smirnov (p > 0,150), o que possibilita o cálculo dos intervalos de confiança Bootstrap pelo método Percentil = [0,5200 ; 0,8000] e pelo método Bootstrap t= [0,5243 ; 0,7957]. Como a distribuição da proporção nas reamostras é aproximadamente Normal, foi possível calcular o intervalo de confiança padrão para proporção e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos resultaram muito próximos. Para as 1000 reamostras dos dados que representam o resultado da pesquisa sobre o aluno que havia notado a alteração dos dispositivos de 27 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica funcionamento das torneiras, foram calculadas as proporções cuja distribuição foi considerada Normal através do teste de aderência pelo método de Kolmogorov Smirnov (p > 0,150). Os intervalos de confiança Bootstrap Percentil e t foram calculados e seus resultados comparados com o cálculo do intervalo de confiança padrão para proporção. Os resultados obtidos foram: intervalo de confiança Bootstrap t = [0,2623 ; 0,5377], intervalo de confiança Bootstrap Percentil = [0,2800 ; 0,5400] e intervalo de confiança padrão = [0,2642 ; 0,4183], todos muito próximos. O teste de aderência realizado pelo método de Kolmogorov Smirnov para a distribuição das proporções nas 1000 reamostras das respostas dos alunos quanto à colaboração na diminuição do consumo de água confirma a aderência à distribuição Normal (p >0,150). Os valores encontrados nos cálculos dos intervalos de confiança Bootstrap Percentil, t e padrão foram muito próximos, a saber: intervalo de confiança Bootstrap t = [0,4228 ; 0,6972], intervalo de confiança Bootstrap Percentil = [0,4200 ; 0,7000] e intervalo de confiança padrão = [0,4224 ; 0,5897]. CONCLUSÃO Através da realização dos estudos de caso, foi possível verificar a adequação da técnica Bootstrap em situações presentes no cotidiano. Os intervalos de confiança e as estimativas encontradas em todos os estudos de caso foram coerentes e confirmaram a confiabilidade do método para estimação de parâmetros em situações onde as distribuições das estimativas dos parâmetros eram conhecidas. O método também tornou possível a estimação de intervalos de confiança em situações onde as distribuições dos parâmetros são desconhecidas ou complexas. Verificou-se, pelos casos estudados, a generalidade de aplicação da técnica de estimação através da reamostragem e que o método Bootstrap permite que o cálculo do intervalo de confiança seja realizado de modo mais simples e 28 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica abrangente para diversas estatísticas, mesmo quando as distribuições de probabilidades das mesmas são desconhecidas. Foi possível estabelecer o intervalo de confiança adequado para cada situação diferente. Quando a estatística do parâmetro estudado tinha distribuição Normal, os intervalos de confiança Bootstrap pelos métodos t e Percentil coincidiram e foram adequados. Quando a distribuição da estatística do parâmetro estudado não era Normal, porém existia uma transformação monotônica para a estatística do parâmetro que tornasse sua distribuição Normal, o intervalo Bootstrap Percentil foi adequado. Nos casos em que a distribuição não era Normal com a estimativa pontual Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram utilizados os métodos BCPB e BCa. Quando era conhecida a distribuição da estatística do parâmetro, os intervalos BCPB e BCa resultaram mais próximos do intervalo padrão que o intervalo Bootstrap Percentil, confirmando a melhora na estimação com o uso dos intervalos corrigidos. O valor pequeno do viés é uma indicação de que os valores estimados devem estar próximos dos verdadeiros valores. Para cada situação deve ser escolhida a técnica de cálculo de intervalo Bootstrap mais adequada. Quando houve mais de uma técnica possível de ser utilizada, verificou-se que os intervalos de confianças resultaram muito próximos. 29 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica REFERÊNCIAS [1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions for BCa confidence intervals. Econometric Theory, v. 18, n. 4, p. 962-984, Aug. 2002. [2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A. S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso racional da água implantado em um campus da Universidade Presbiteriana Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING AND TECHNOLOGY EDUCATION, 2006, Itanhaém. Anais … São Vicente: COPEC, 2006. 1 CD-ROM. [3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1997. [4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical Science , v. 1, n. 1, p. 55–77, Feb. 1986. [5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E. Fábrica de subprodutos de origem animal: a importância do balanceamento das cargas dos digestores de vísceras. Revista Produção, v. 10, n. 2, p. 5-9, 2002. [6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of Statistics, v. 16, n. 3, p. 927–953, Sep. 1988. [7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN, R. Bootstrap methods and permutation tests. In: The practice of business statistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18. [8] GONZÁLEZ MANTEIGA, W.; PRADA SÁNCHEZ, J. M.; ROMO URROZ, J. J. The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994. [9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression analysis. 3rd ed. New York: Wiley, 2001. [10] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003. 30 Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica [11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill, c2006. [12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de confiança “Bootstrap” como ferramenta para classificar raças do nematóide de cisto de soja. Pesquisa Agropecuária Brasileira, Brasília, v. 35, n. 2, fev. 2000. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100- 204X2000000200005 Acesso em: 9 jun. 2006. [13] PRADO, D. S. Teoria das filas e da simulação. Belo Horizonte: Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2). 31