XV Encontro Nacional sobre Metodologias e Gestão de Laboratórios da EMBRAPA – XV MET Embrapa Clima Temperado – PELOTAS - RS Desenvolvimento e operação de programas de ensaio de proficiência Gilberto Batista de Souza Embrapa Pecuária Sudeste [email protected] OUTUBRO / 2010 Protocolo Internacional Harmonizado para Ensaio de Proficiência em Laboratórios Analíticos (Químicos) ABNT ISO/IEC GUIA 43-1:1999 ENSAIO DE PROFICIÊNCIA EM LABORATÓRIOS ANALÍTICOS MÉTODOS PARA VERIFICAR O DESEMPENHO DE LABORATÓRIOS NA REALIZAÇÃO DE ENSAIOS, POR MEIO DE COMPARAÇÕES INTERLABORATORIAIS ABNT ISO/IEC GUIA 43, 1999, Ensaios de Proficiência por Comparações Interlaboratoriais - Parte 1: Desenvolvimento e Operação de Programas de Ensaios de Proficiência. A PARTICIPAÇÃO EM ENSAIO DE PROFICIÊNCIA TRAZ COMO BENEFÍCIOS avaliação do desempenho e monitoração contínua; evidencia de obtenção de resultados confiáveis; identificação de problemas relacionados com a sistemática de ensaios; possibilidade de tomada de ações corretivas e/ou preventivas; avaliação da eficiência de controles internos de qualidade; determinação das características de desempenho e validação de métodos e tecnologias; padronização das atividades frente ao mercado, reconhecimento de resultados de ensaios, em nível nacional e internacional. RESUMO Os programas de ensaios interlaboratoriais envolvem subamostras selecionadas aleatoriamente de uma fonte de material, sendo distribuídas simultaneamente aos laboratórios participantes para ensaios em paralelo. Após a conclusão dos ensaios, os resultados são retornados à coordenação, sendo comparados com os valores designados, para que se tenha uma indicação do desempenho individual dos participante como um todo. laboratórios e do grupo Organização (Protocolo) dos programas de ensaios de proficiência Estrutura • Os materiais de ensaio devem ser distribuídos regularmente aos participantes, que são solicitados a retornar os resultados dentro de um prazo determinado. • Os resultados são submetidos à análise estatística pelo coordenador e os participantes devem ser prontamente notificados de seus desempenhos. • Deve-se disponibilizar orientação àqueles que tiverem desempenho fraco e manter todos os participantes inteiramente informados do andamento do programa. • Os participantes devem ser identificados nos relatórios somente pelo seu código. A estrutura do programa deve seguir os passos abaixo para qualquer analito ou rodada (1) o coordenador organiza a preparação, ensaio da homogeneidade e validação do material de ensaio; (2) o coordenador distribui as amostras de ensaio de acordo com um cronograma; (3) os participantes analisam as amostras e relatam os resultados ao coordenador; (4) os resultados são submetidos à análise estatística e o laboratório é avaliado quanto ao seu desempenho; (5) os participantes são notificados de seus desempenhos; (6) quando solicitado, é disponibilizada orientação para aqueles que tiveram desempenho fraco; (7) o coordenador faz a análise crítica do desempenho do programa; (8) a próxima rodada é iniciada. Tipos de Ensaios de Proficiência (EP) Ensaios de comparações interlaboratoriais são conduzidos não somente para avaliar o desempenho de laboratórios, mas também para validar métodos de análises e amostras referência. Objetivo geral do EP É o estímulo ao bom desempenho dos participantes, proporcionando a disponibilidade de meios objetivos para que o responsável pelo laboratório possa avaliar e demonstrar a confiabilidade dos dados que produz Os métodos de EP variam dependendo da natureza dos itens de ensaios (amostras), do método de ensaio utilizado e do número de laboratórios participantes. As normas ABNT/ISO GUIA 43 descrevem seis tipos mais comuns de EP (ABNT ISO/IEC 43, 1999). TERMOS E DEFINIÇÕES Valor designado Valor a ser utilizado como valor verdadeiro no ensaio de proficiência no tratamento estatístico de resultados, sendo a melhor estimativa disponível do valor verdadeiro. Valor alvo para o desvio padrão Valor numérico para o desvio padrão designado como alvo para a qualidade de um resultado de medição. Item de ensaio Material que é distribuído para análise pelos participantes do Ensaio de Proficiência. Provedor do Ensaio de Proficiência Entidade responsável pela coordenação do Ensaio de Proficiência 1- Programas de comparação e medição Nesse tipo de programa o item de ensaio a ser medido é enviado sucessivamente de um laboratório participante para outro. Os resultados dos ensaios devem ser informados juntamente com as incertezas associadas, sendo que serão comparados com os valores designados fornecidos por um laboratório de Referência. Programas envolvendo participação sucessiva geralmente demandam tempo, às vezes anos e dessa forma algumas dificuldades poderão ser geradas, como: garantia de estabilidade dos itens de ensaio; estrito monitoramento de sua circulação e o tempo permitido para a realização dos ensaios pelos participantes individuais; dificuldade de comparar os resultados com base no grupo de participantes, acarretando em demora para fornecer o desempenho individual aos laboratórios (ABNT/ISO GUIA 43, 1999). 2- Programas de ensaios interlaboratoriais Os programas de ensaios interlaboratoriais, geralmente utilizam itens de ensaio que sejam de certa forma semelhantes aos materiais analisados na rotina dos laboratórios participantes, os quais incluem alimentos, água, solos e materiais ambientais. É fundamental que apresentem homogeneidade aceitável, para que resultados extremos não sejam atribuídos a variabilidades significativas do item de ensaio. Neste tipo de EP, os itens de ensaios são subamostras selecionadas aleatoriamente de uma fonte de material que são distribuídas simultaneamente aos participantes. Após a conclusão dos ensaios, os responsáveis pelos laboratórios enviam os resultados ao coordenador do EP, que os compara com os valores designados (valores alvo). Por meio de relatórios, o coordenador fornece o desempenho individual do laboratório e do grupo como um todo. Programas de ensaios interlaboratoriais (cont.) Esse tipo de programa interlaboratorial é utilizado para: Testar a precisão e a exatidão dos laboratórios; Produzir materiais de referência para utilização em controle interno de qualidade (CIQ); E comprovar junto aos organismos de acreditação que o laboratório é competente na realização do ensaio em questão. 3- Programas de ensaios de partidas de amostras Tipicamente, esse tipo de ensaio envolve comparações de dados produzidos por pequenos grupos de laboratórios (frequentemente dois laboratórios). Geralmente, são utilizados em transações comerciais para atestar os níveis de garantia (especificações), de um determinado produto negociado. A amostra (item de ensaio) é dividida entre dois laboratórios, um representado o fornecedor e outro representando o comprador. Uma terceira parte da amostra é retida para que se necessário seja ensaiada por um terceiro laboratório, se diferenças significativas ocorrerem entre os resultados dos laboratórios do fornecedor e do comprador. 4- Programas qualitativos São utilizados para avaliar a capacidade de laboratórios para caracterizar entidades específicas. Quando laboratórios são requisitados para identificar um componente de um item de ensaio. Nesse programas, o coordenador adiciona quantidades conhecidas do material de interesse no item de ensaio. Dessa forma, não há a necessidade de comparação dos resultados do laboratório para avaliar o desempenho do mesmo. Não é necessário o envolvimento de múltiplos laboratórios ou comparações interlaboratoriais para avaliar o desempenho de ensaio de um laboratório. 5- Programas de valor conhecido Como nos programa qualitativos, nesse tipo de comparação interlaboratorial não há necessidade de comparar os resultados do laboratório com outros participantes. Nesses, os itens de ensaio possuem quantidades conhecidas do mensurando. Dessa forma, é possível avaliar a capacidade de um laboratório individual para realização do ensaio em questão, sendo os resultados comparados com os valores designados. Não é necessário o envolvimento de múltiplos laboratórios ou comparações interlaboratoriais para avaliar o desempenho de ensaio de um laboratório. Programas de processo parcial Nesse tipo de programas são envolvidas apenas partes de um ensaio ou processo de medição. Avaliam a habilidade do laboratório em realizar uma etapa do ensaio. São utilizados para testar conformidades em certas ações em um laboratório, tais como preparar amostras de acordo com uma determinada especificação ou ajustar uma curva de calibração. TIPOS DE ENSAIOS DE PROFICIÊNCIA RESUMO Programas de comparação e medição Item de ensaio enviado sucessivamente de um laboratório participantes para outro Programas de ensaios de partidas de amostras Envolve comparações de dados produzidos por pequenos grupos de laboratórios Programas qualitativos São utilizados para avaliar a capacidade de laboratórios para caracterizar entidades específicas ⇒ adiciona-se quantidades conhecidas de analito no material ABNT ISO/IEC GUIA 43, 1999, Ensaios de Proficiência por Comparações Interlaboratoriais - Parte 1: Desenvolvimento e Operação de Programas de Ensaios de Proficiência. Programas de valor conhecido O item de ensaio contem quantidade/concentração conhecida do analito Programas de processo parcial São envolvidas partes de um ensaio ou processo de medição Programas de ensaios interlaboratoriais Itens de ensaio semelhantes ao da rotina do laboratórios Amostras distribuídas simultaneamente aos participantes Programas utilizados para a precisão e extatidão Produzir materiais de referência Programas de comparação e medição Item de ensaio (amostra) enviado sucessivamente de um laboratório participantes para outro Ferramentas estatísticas para avaliação de resultados em EP O projeto estatístico a ser empregado deve fornecer resultados simples e transparentes, para que os participantes e outros interessados, p.ex., os clientes do laboratório, possam com facilidade avaliar as informações contidas nos relatórios fornecidos pelo provedor do EP. Em conformidade com um protocolo harmonizado, a hipótese estatística fundamental para o escopo do EP deve basicamente ser formulada da seguinte maneira: A hipótese nula (H0) é que não haja diferença significativa entre os resultados do grupo, ou seja, que o laboratório atende aos requisitos de qualidade; E a hipótese alternativa (H1) é que o laboratório apresente diferença significativa quando comparado com os resultados do grupo, portanto, não atende aos requisitos de qualidade (UHLIG & LISCHER, 1998). Um dos pontos críticos de todo programa interlaboratorial é a interpretação dos resultados do programa e conseqüentemente a avaliação do desempenho dos participantes. Na literatura são citadas diversas técnicas estatísticas empregadas para avaliar os resultados em programas interlaboratoriais. No entanto, essas técnicas devem ser apropriadas para cada situação (ABNT ISSO/IEC 43, 1999). Geralmente, duas etapas são comuns para todos os esquemas de EP: Estimar o valor designado da concentração do analito e a incerteza associada; E calcular a estatística para avaliar o desempenho do laboratório (KUSELMAN, 2006). Não existe um procedimento padronizado que descreva em detalhes as estratégias a serem utilizadas. Dessa forma, dependendo do propósito, diferentes critérios estatísticos empregados podem afetar a determinação do valor designado e o intervalo de aceitação e consequentemente comprometerem a avaliação do desempenho do laboratório (VISSER, 2006; MAIO, 2005). Procedimentos para o cálculo da estatística de desempenho Dentre os procedimentos estatísticos empregados por programas interlaboratoriais para avaliar o desempenho de laboratórios, o mais comum, é o ÍNDICE Z . Esse índice é recomendado pelo Protocolo Internacional Harmonizado para Ensaios de Proficiência (ABNT ISSO/IEC 43, 1999) e é obtido conforme a equação: xi z= (x i σ − X) é o resultado do participante X o valor designado (melhor estimativa do valor verdadeiro) σ estimativa apropriada da variabilidade, ou seja, desvio padrão alvo para o propósito conveniente do EP p p (x i σ − X) p descreve o erro na medida do laboratório em relação ao valor designado descreve a incerteza padrão, que é mais apropriada para a área de aplicação de resultados de análises. O ÍNDICE Z tem a vantagem de permitir a comparação direta dos resultados de diferentes amostras e de diferentes unidades, porque o valor desse índice não é expresso na unidade original da medida, ou seja, é normalizado e descrito como sendo a distância entre xi e X em unidades de desvio padrão. A hipótese do uso do índice z está baseada na distribuição normal ou Gaussiana do conjunto de dados, com a média de 0 (zero) e 1 (um) desvio padrão X X Interpretação do ÍNDICE Z A maioria dos programas interlaboratoriais que utilizam o desempenho dos ensaios, interpretam que o valor de Índice z para avaliar o z quanto mais próximo de 0 (zero), mais exato o resultado, ou seja, mais competente o laboratório na realização do ensaio. Para uma distribuição normal do conjunto de dados, aproximadamente a probabilidade de 95% dos resultados caírem dentro do intervalo de z ± 2 , deste modo, o desempenho do laboratório é considerado aceitável ou satisfatório para realizar o ensaio. Para valores de z≥ ±3 são considerados inaceitáveis ou insatisfatórios e a probabilidade de ocorrerem numa distribuição normal é de 99,7%. Valores que estiverem entre desempenho questionáveis. ± 2< z < ±3 são considerados resultados com Outros procedimentos são alternativos para avaliação do desempenho em programas interlaboratoriais. Índice Q: É baseado na tendência relativa. Dessa forma, espera-se que a distribuição geral de Q seja centrada em zero. A vantagem desse índice, é que ele mede diretamente o erro associado com a determinação e pode ser calculado por meio da equação: Q= (x i − X) X xi X é o resultado do participante o valor designado (melhor estimativa do valor verdadeiro) Erro normalizado: En O número E n raramente é utilizado para avaliar o desempenho de laboratórios em programas interlaboratoriais. No entanto, esse procedimento é recomendado em programas de comparação de medições, como p.ex. IMEP (International Measurement Evaluation Programme) organizado pelo IRMM (Institute for Reference Materiais) (ABNT ISO/IEC 43, 1999; WONG, 2007). O cálculo é baseado na equação: xi En = xi − X ref 2 U i2 + U ref resultado do laboratório participante X ref valor designado fornecido pelo laboratório referência U i2 incerteza do resultado do participante 2 U ref incerteza do valor laboratório referência designado pelo Interpretação do En En ≤ 1,0 En ≥ 1,0 Resultado satisfatório Resultado insatisfatório A soma reescalonada de Índice z : RSZ É um dos procedimentos para avaliação de desempenho combinando-se vários índices em uma rodada de ensaio. O RSZ não é muito recomendado, sendo questionável o uso na combinação de índices para diferentes ensaios (LAWN, 1997). No entanto, pode ter aplicações específicas quando empregado com certo cuidado. A soma dos Índices z para o mesmo tipo de ensaio, mesmo em amostras distintas, pode ser útil para evidenciar tendências consistentes em um sistema analítico, possibilitando identificar a presença de erros sistemáticos. O RSZ pode ser calculado por meio da equação: RSZ = ∑ z m m número de índices z combinados WONG, (2007), comparou procedimentos estatísticos para avaliar o desempenho de laboratórios por meio de programas de ensaio de proficiência. O estudo revelou que a presença de comportamento multi-modal nos resultados dos participantes, poderia causar impactos significativos na validade da avaliação de desempenho. Por esta razão, provedores de EP são recomendados a checar os resultados dos participantes para verificar a existência de multi-modal antes de avaliar o desempenho dos laboratórios. Como testes visuais para verificar a normalidade dos dados, poderiam ser utilizados gráficos tipo Histogramas. Técnica da Elipse de Confiança A técnica do gráfico da elipse de confiança é mais utilizada para verificar a compatibilidade entre os laboratórios, e segue o método de Youden. O planejamento experimental para a construção da elipse de confiança prevê a distribuição de um par de amostras semelhantes, não necessariamente de concentrações iguais, porém de concentrações próximas. A elipse é construída para cada ensaio e cada laboratório é representado por um ponto. As retas que passam pelas médias dos laboratórios, em x (resultados relativos à uma das amostras analisadas) e em y (resultados relativos a outra amostra analisada), dividem o diagrama em quadrantes. Pontos encontrados nos quadrantes superior direito e inferior esquerdo representam laboratórios que podem estar incorrendo em erros sistemáticos. Quando somente erros aleatórios estão presentes, os pontos devem estar distribuídos de modo uniforme em todos os quadrantes. Se os pontos se encontrarem mais concentrados nos quadrantes superior direito e inferior esquerdo, isto é interpretado como evidência de ocorrência de erros sistemáticos, ou seja, os laboratórios tendem a obter valores altos ou baixos, em ambas as amostras do par. A dispersão em torno do eixo menor da elipse representa apenas os erros aleatórios, enquanto que a dispersão ao longo do eixo maior representa os erros sistemáticos. Procedimentos para a determinação do valor designado - X O valor designado (valor atribuído) é por definição, a melhor estimativa do valor verdadeiro, sendo este valor utilizado com o propósito de calcular os índices de desempenho dos participantes de programas interlaboratoriais. Esse valor deve ser definido de forma criteriosa, para avaliar de maneira justa os participantes e para incentivar a concordância entre métodos e laboratórios. Na literatura são sugeridos diferentes métodos para determinar o valor designado, sendo os mais comuns listados - ABNT ISO/IEC GUIA 43, 1999, Ensaios de Proficiência por Comparações Interlaboratoriais - Parte 1: Desenvolvimento e Operação de Programas de Ensaios de Proficiência. - THOMPSON, M.; ELLISON, S.L.R.; WOOD, R.; The International Harmonized Protocol for the Proficiency Testing of Analytical Chemistry Laboratories. Pure Applied Chemistry, v.78, n.1, p.145–196, 2006.. Valor designado fornecido por um laboratório referência: Neste método o provedor do ensaio de proficiência recomenda um laboratório que seja confiável para o propósito do esquema. ☺ A principal vantagem é que o material utilizado no EP é especialmente preparado para o escopo dom programa. Valor certificado por um Material de Referencia Certificado (CRM) utilizado como material teste: Nesse método o valor certificado e a incerteza associada são utilizados diretamente no cálculo de desempenho, se tornando assim, um procedimento simples e fácil de ser implantado. As principais desvantagens são: o alto custo desses materiais e a insuficiente disponibilidade de matriz natural para cada finalidade. Valor designado fornecido por laboratórios especialistas: Nesse procedimento o valor designado é obtido pelo valor de consenso de um grupo de laboratórios especialistas, que analisam o material de ensaio utilizando métodos validados (métodos de referência) reconhecidos como sendo de alta precisão e exatidão. O valor de consenso será calculado utilizando uma estimativa apropriada da tendência central dos resultados, normalmente a média ou mediana. Valor designado obtido de materiais formulados: Neste método o valor alvo é obtido de materiais cuja concentração do analito foi adicionada ao material a ser ensaiado. As formulações consistem na adição de quantidades ou concentrações conhecidas de analito a um material base que não contem o mensurando e, portanto certas circunstâncias devem consideradas: o material deve estar livre do analito ou sua concentração deve ser exatamente conhecida; o analito adicionado pode ser de difícil homogeneização no material base (Nessas circunstâncias deve-se empregar testes para avaliar a homogeneidade do material); o analito pode estar mais fracamente ligado ao material (matriz) do que quando presente na forma natural e consequentemente tornar irreal o valor da recuperação do analito adicionado. Quando for utilizada formulação, deve ser citada, se possível, a rastreabilidade a materiais de referência certificados ou métodos de referência. O método é relativamente fácil de executar quando o material teste for um liquido, como p.ex. amostras de sangue. Valores de consenso que são derivados diretamente dos resultados relatados pelos participantes: É o procedimento mais utilizado para determinar o valor alvo em ensaios de proficiência, sendo utilizado normalmente a média aritmética dos resultados após a exclusão de valores dispersos (estatística clássica) ou a mediana dos resultados de todos os participantes na rodada do ensaio (estatística robusta). ☺ Dentre as principais vantagens do uso deste método estão a facilidade de aplicação e o baixo custo. A principal desvantagem é a existência de sub-populações, ou seja, em EPs onde os participantes utilizam métodos distintos o valor alvo poderá sofrer tendência no valor proveniente dos resultados de um grupo majoritário de laboratórios. A estatística clássica baseada na média tem maior desvantagem, porque a interpretação dos resultados é baseada na distribuição normal (curva Gaussiana). Por outro lado, a estatística robusta é válida inclusive com resultados de ensaios que não apresentam comportamento segundo uma distribuição normal (distribuição Gaussiana). Assim, ao contrário da estatística clássica, a presença de uma distribuição normal não é requerida. Isto é vantajoso em programas interlaboratoriais quando distribuições não normais são freqüentemente encontradas (OLIVIERI, 2004). Procedimentos para a determinação do desvio padrão alvo - σ P O desvio padrão alvo é definido como sendo a incerteza (u) associada ao valor designado e que caracteriza a dispersão ou a variabilidade dos valores atribuídos ao mensurando. Este parâmetro, em programas interlaboratoriais, determina com alta probabilidade o intervalo no qual o valor verdadeiro provavelmente está contido. “A incerteza (u) da medição não implica em duvida quanto a validade da medição, ao contrário, o conhecimento da incerteza implica numa maior confiança na validade de uma medição” (EURACHEM/CITAC, 1998). Vários métodos são empregados para estimar o intervalo de confiança (IC) em EPs (LAWN, 1997). Geralmente, o procedimento para determinar a incerteza deve ser adequado para satisfazer o objetivo comum de todos os laboratórios e dessa forma, precisa ser definido pelo organizador do EP e deverá ser divulgado para os participantes antes do início da rodada do EP (THOMPSON & ELLISON, 2006). Por exemplo, em programas de ensaios de partidas de amostras o σp poderá ser um valor fixado previamente, dependendo da variabilidade aceita para um determinado produto. Métodos baseados na estatística clássica: Neste método o σp é representado pela estimativa do desvio padrão “s ”, calculado por meio da equação: s= ∑ (x i i − X) ( N − 1) 2 xi = é o resultado informado pelo participante i X = a média dos resultados após a exclusão do disperso N = o número de participantes Para exclusão de “outliers”, geralmente são aplicados alguns testes estatísticos, sendo os mais comuns: teste de Dixon ou teste Q; teste de Grubbs e teste de Hampel. Métodos baseados em estatística robusta: São os procedimentos que recentemente estão sendo empregados para avaliar os dados em programas de controle de qualidade interlaboratoriais (ANALYTICAL METHODS COMMITTEE, 2001). São os métodos preferíveis, pois, não dependem de uma distribuição normal dos dados para serem aplicados (MAIO et al, 2005). Em muitos programas interlaboratoriais, distribuições não Gaussianas são freqüentemente encontradas, dessa forma, estatística robusta é apropriada para ser aplicada, pois não dependem da realização de testes de exclusão de “outliers” para definir o valor do desvio padrão alvo σp . Normalmente são empregados os seguintes procedimentos para o cálculo do desvio padrão robusto: São calculadas as diferença ( d i ) entre o resultado informado pelo laboratório e o valor da mediana do conjunto de resultados ( xi − X ), sendo em seguida os valores de d i arranjados em ordem de grandeza, sem considerar o sinal. O valor da diferença mediana ( d ) multiplicado pelo fator de 1,5 fornece o desvio padrão robusto σp (Analytical Methods Committee, 2001). d = xi − X σ p = 1,5 × d O σp pode ser obtido pela diferença entre o primeiro quartil (Q1) e o terceiro quartil (Q3) ordenados em ordem crescente. Essa diferença fornece o intervalo quartílico normalizado (IQN) que multiplicado por 0,7413 torna-se comparável ao desvio padrão para os testes de proficiência (ANALYTICAL METHODS COMMITTEE, 1989). Intervalo Interquartílico IQN = (Q3 – Q1) x 0,7413 A equação de HORWITZ, modificada por THOMPSON, é um modelo para predizer o desvio padrão a partir de uma dada concentração (c) do analito expressa como razão adimensional da massa (p.e.: 1 mg kg-1 = 10-6; 1% = 10-2), sendo utilizados o valor da mediana obtida para cada ensaio e amostra. É um procedimento amplamente empregado para definir o σp em ensaios de proficiência (THOMPSON, 2000). σ P = 0,22c mr c < 120 ppb σ P = 0 ,8495 0,02c mr c ≥ 120 ppb e ≤ 13,8% σ P 0,01c 0,5 = mr c > 13,8% mr = razão adimensional da massa: c= X 1 ppm = 10-6 ou % = 10-2 EQUAÇÃO DE HORWITZ σ P 0,22c = mr c < 120 ppb σ P 0,02c 0,8495 = mr c ≥ 120 ppb e ≤ 13,8% Concentração do valor designado mr = razão adimensional da massa: 1 ppm = 10-6 ou % = 10-2 c= X σ P 0,01c 0,5 = mr c > 13,8% Um analito na concentração de 1 % (1 g/100g): c ≥ 120 ppb e ≤ 13,8% σ σ P P 0,02 × (1× 1× 10 − 2 ) 0,8495 = 1× 10 − 2 3,99 × 10 − 4 −2 = = 3 , 99 × 10 = 0,0399 −2 1× 10 0,03997 × 100 cv% = = 3,997 ≅ 4,0 1 Um analito na concentração de 100 mg/L (100 ppm) c ≥ 120 ppb e ≤ 13,8% σ P 0,02c 0,8495 = mr σ P 0,02 × (100 × 1× 10 − 6 ) 0,8495 = = 8,0 −6 1× 10 8,0 × 100 cv% = = 8,0 100 Um analito na concentração de 80,7 µg/L (80,7 ppb) c < 120 ppb σ P 0,22c = mr σ P 0,22 × 80,7 × 10 − 9 = = 17,8µ g / L −9 10 17,8 × 100 cv% = = 22,1 80,7 Um analito na concentração de 36% (36,0 g/100g) c > 13,8% σ P = 0,01c mr 0,5 σ P 0,01 × (36 × 10− 2 )0,5 = = 0,6 −2 10 0,6 × 100 cv% = = 1,7 36 INFLUÊNCIA DE TÉCNICAS ESTATÍSTICAS NA AVALIAÇÃO DOS RESULTADOS. Thomas Peter, et al. THE INFLUENCE OF DIFFERENT EVALUATION TECHNIQUES ON THE RESULTS OF INTELABORATORY COMPARISONS. Acrred. Qual Assur (1998) 3:322-327 Programa Interlaboratorial: determinações de nutrientes em amostras de água: Ca, Mg, Na, K, NO31-, SO42-, Cl, HCO3, B, o-PO42- e Carbono Org. Dissolvido. Detecção de Outliers: Teste de Grubs; Teste Graf-Henning Teste de Hampel MAIO, F. D. ; ZENEBON, O. ; TIGLEA, P. ; SAKUMA, A. M. . Avaliação de Técnicas Estatísticas Aplicáveis a Programas de Ensaio de Proficiência para Chumbo em Sangue. In: VI Encontro do Instituto Adolfo Lutz, 2005, São Paulo. Revista do Instituto Adolfo Lutz. São Paulo, 2005. Participação de 30 laboratórios Comparar os diversos tratamentos estatísticos para obtenção dos valores designados e dos intervalos de aceitação Três níveis de concentração de chumbo Avaliar o impacto à saúde de população exposta ao chumbo decorrente da adoção de diferentes critérios de aceitação dos resultados Avaliar os métodos mais adequados de tratamento estatístico na presença de resultados dispersos. X = MÉDIA X = MEDIANA Dixon e Grubbs: z-score: + rigoroso , quantidade de outliers quantidade de outliers Hampel: baseado em estatística robusta; detecta nº de outliers Intervalos semelhantes CeD INADEQUADO FeG POUCO RESTRITIVO A, B e E ADEQUADO DESEMPENHO CONCLUSÕES: O valor designado não sofreu influência significativa pelo critério estatístico utilizado O intervalo de aceitação variou dependendo do critério estatístico adotado e da faixa de concentração O critério estatístico “E” mostrou-se adequado aos três níveis de concentração CHUI, Q. S. H.; BISPO, J. M. DE A.; IAMASHITA, C. O.. O papel dos programas interlaboratoriais para a qualidade dos resultados analíticos. Quim. Nova, Vol. 27, No. 6, 993-1003, 2004 PROGRAMA INTERLABORATORIAL Determinação de Ca, Al, Fe Ti e Mn Amostra de Silício metálico Candidata a material de referência Técnicas estatísticas Elipse de confiança Outliers Desempenho Diagrama de Youden Colchran e de Grubbs Z-score robusto Nº de participantes = 12 laboratórios Método de dissolução → rotina do laboratório Métodos de quantificação → FRX, ICP-OES, AAS Através do consenso entre os participantes Padronização do método de abertura e das linhas de emissão CONCLUSÕES Dispersão devido as diferentes formas de abertura de amostras Utilização de diferentes linhas de emissão representaram fontes de variabilidade Foi sugerido um procedimento para abertura das amostras Para cada elemento foram indicados comprimento de onda a serem determinados por ICP-OES e AAS Escolha entre os métodos A escolha entre os métodos de avaliação do valor designado depende de cada caso e é da responsabilidade da entidade organizadora. É normalmente aconselhável ter uma estimativa do valor designado, além do consenso dos participantes. Qualquer desvio significativo observado entre as estimativas deve ser cuidadosamente considerado pelo grupo assessor técnico. Métodos empíricos são utilizados quando o analito não é quimicamente bem definido. Num método empírico, por exemplo, determinação de “gordura”, o resultado verdadeiro (dentro dos limites da incerteza da medição) é obtido por uma correta execução do método. Nestas circunstâncias, o conteúdo do analito é claramente definido somente quando o método também for especificado. A utilização de métodos empíricos nos ensaios de proficiência poderá causar problemas se houver liberdade na escolha do método analítico. Se o valor designado for obtido por laboratórios especialistas e os participantes usarem um método empírico diferente, poderá ocorrer uma tendência aparente nos resultados, mesmo que nenhuma falha esteja presente na execução dos ensaios. Da mesma forma, se os participantes tiverem liberdade de escolher entre os métodos empíricos, poderá não haver consenso entre eles. Existem vários recursos para superar tais problemas: a) um valor distinto do valor designado é produzido para cada método empírico utilizado; b) os participantes são instruídos para utilizar um método prescrito; c) os participantes são alertados que a utilização de um método empírico diferente daquele utilizado na obtenção do consenso pode resultar numa tendência. Organização O coordenador é responsável pela operação do dia a dia do programa e deve documentar todas as práticas e procedimentos em um manual da qualidade. Os materiais de ensaio são preparados por laboratório contratado ou pelo coordenador. Recomenda-se que o laboratório que prepara o material de ensaio tenha experiência demonstrada na área de análise pertinente. O coordenador deve manter o controle sobre o processo de avaliação de desempenho, visando manter a credibilidade do programa. Convém que a direção geral do programa seja supervisionada por um pequeno grupo assessor, que pode ser formado por pessoal de laboratório, com representantes de, por exemplo, coordenador, laboratório contratado, organizações de classes profissionais, participantes e usuários finais dos dados analíticos. Materiais de ensaio Os materiais de ensaio distribuídos no programa devem ser, de forma geral, similares, quanto ao tipo, aos materiais rotineiramente analisados (quanto à composição da matriz e faixa de concentração ou quantidade de analito). A homogeneidade e a estabilidade dos materiais de ensaio devem ser aceitáveis. O valor designado do material de ensaio não deve ser informado aos participantes até que os resultados tenham sido compilados. O lote de material preparado para o ensaio de proficiência deve ser suficientemente homogêneo para cada analito, de modo que todos os laboratórios recebam amostras de ensaio que não difiram significativamente nas concentrações do analito. O coordenador deve declarar claramente o procedimento utilizado para estabelecer a homogeneidade do material de ensaio. Como orientação, o desvio padrão entre as amostras deve ser menor que 0,3 vezes o valor do desvio padrão alvo. Se possível, o laboratório coordenador deve também fornecer evidência de que o material de ensaio permanece estável no período de realização do ensaios de proficiência. Durante os ensaios de estabilidade, as condições de armazenamento, especialmente tempo e temperatura, devem representar as condições encontradas durante todo o ensaio de proficiência. Os ensaios de estabilidade também devem levar em consideração o transporte das amostras de ensaio aos laboratórios participantes, assim como as condições encontradas em um ambiente de laboratório. As concentrações dos vários analitos não devem apresentar mudanças significativas durante os ensaios de estabilidade. O grau de “mudança significativa” pode ser avaliado por meio da variância esperada para análises em replicata do lote de material. Quando forem avaliados analitos instáveis, a organização coordenadora pode necessitar prescrever uma data em que a análise deve ser encerrada. Freqüência de distribuição de amostras de ensaio A freqüência apropriada da distribuição de amostras de ensaio em qualquer série depende de inúmeros fatores, sendo os mais importantes a seguir: (1) dificuldade em executar um controle efetivo da qualidade analítica; (2) a capacidade de trabalho do laboratório; (3) a consistência dos resultados das rodadas anteriores; (4) custo/benefício do programa; (5) disponibilidade de material adequado para programas de ensaio de proficiência. Geralmente, o período de distribuição de amostra ocorre em um intervalo mínimo de 2 semanas a um intervalo máximo de 4 meses. Escolha do método analítico Os participantes poderão utilizar o método analítico de sua escolha, exceto quando houver orientação para adotar um método específico. Os métodos utilizados devem ser validados de um modo apropriado, por exemplo, processo colaborativo, método de referência, etc. Como princípio geral, convém que os procedimentos utilizados pelos laboratórios participantes nos programas de ensaios de proficiência simulem aqueles utilizados no seu trabalho analítico de rotina. Quando um método empírico for utilizado, o valor designado será calculado a partir de resultados obtidos utilizando o procedimento definido. Se os participantes utilizarem um método não equivalente ao método definido, deve-se esperar uma tendência nos resultados quando seu desempenho for avaliado. Critérios de desempenho Para cada analito em uma rodada, pode ser estabelecido um critério para o índice por meio do qual o desempenho do laboratório possa ser avaliado. Um índice móvel, ao longo de um período de tempo maior, será baseado em resultados de várias rodadas. O critério de desempenho será estabelecido de modo que os dados analíticos rotineiramente produzidos pelo laboratório atendam aos objetivos pretendidos. Este critério não precisa ser estabelecido no nível mais alto que o método é capaz de fornecer. Relatório de resultados É recomendável que os relatórios enviados aos participantes sejam claros e completos e contenham dados sobre a distribuição de resultados de todos os laboratórios, juntamente com o índice de desempenho dos participantes. Convém que os resultados dos ensaios utilizados pelo coordenador sejam apresentados para permitir que os participantes verifiquem se seus dados foram corretamente processados. Recomenda-se que os relatórios estejam disponíveis tão rapidamente quanto possível após o retorno dos resultados para o laboratório coordenador, se possível, antes da próxima distribuição das amostras. Relatório.... Embora seja recomendado que todos os resultados sejam fornecidos aos participantes, este procedimento pode não ser possível em algum programa de grande monta (por exemplo, quando existirem 700 participantes, cada um determinando 20 analitos em qualquer rodada). Entretanto, convém que os participantes recebam, pelo menos: (1) relatórios num formato claro e simples, e (2) os resultados de todos os laboratórios na forma gráfica, por exemplo, histograma. Relação com os participantes Recomenda-se que sejam fornecidas informações detalhadas aos participantes quando da adesão ao programa. A comunicação com os participantes pode ser por meio de boletins ou relatório anual, juntamente com uma reunião periódica aberta. Convém que os participantes sejam avisados imediatamente sobre quaisquer alterações no projeto ou operação do programa. É recomendável disponibilizar orientações aos laboratórios com desempenhos insatisfatórios. Aos participantes que considerarem o resultado de sua avaliação de desempenho incorreta, deverá ser permitido tratar do assunto com o coordenador. Relação com os participantes Convém que a realimentação dos laboratórios seja incentivada, de forma que os participantes contribuam ativamente para o desenvolvimento do programa. É recomendável que os participantes considerem o programa “como seu” em vez de algo imposto por uma burocracia distante. Colusão e falsificação de resultados Apesar dos ensaios de proficiência objetivarem primordialmente auxiliar na melhoria do desempenho analítico, alguns participantes podem fornecer uma falsa e otimista impressão das suas capacidades. Por exemplo, pode haver colusão entre laboratórios de maneira a não fornecerem dados verdadeiramente independentes. Os laboratórios podem também dar uma falsa impressão de seu desempenho, se rotineiramente efetuam uma única análise, mas relatam a média de replicatas de determinações nas amostras de ensaio de proficiência. Convém que os programas de ensaios de proficiência sejam projetados para assegurar que o mínimo de colusão e falsificação ocorra. Por exemplo, amostras podem ser distribuídas dentro de uma rodada e não reutilizadas em rodadas subsequentes de forma a tornar improvável a sua identificação. Convém que as instruções aos participantes informem claramente que a colusão é contrária à conduta profissional científica e serve somente para anular o benefício dos ensaios de proficiência para os clientes, organismos de credenciamento e analistas. Procedimentos recomendados para garantir a homogeneidade dos materiais de ensaio Na preparação de materiais de ensaio de proficiência, o laboratório deve seguir o procedimento: 1. Utilizar um método apropriado para homogeneizar todo o material 2. Dividir o material em frascos que serão enviados aos participantes 3. Selecionar aleatoriamente, um mínimo de (n)10 frascos 4. Homogeneizar separadamente o conteúdo de cada um dos n frascos selecionados e tomar duas porções de ensaio 5. Utilizar um método apropriado para analisar 2n porções de ensaio numa ordem aleatória em condições de repetitividade. O método analítico utilizado deve ser suficientemente preciso para estimar satisfatoriamente ss. 6. Estimar a variância da amostra (ss2) e a variância analítica (sa2) utilizando análise da variância de um fator, sem excluir os dispersos 7. Informar os valores de x , ss , sa , n e o resultado do teste F. 8. Para garantir a homogeneidade é recomendável que o valor de ss/σ seja menor que 0,3, onde σ é valor alvo para o desvio padrão para os ensaios de proficiência na concentração do analito. Apesar de haver diferenças significativas entre as amostras (teste F), os materiais são suficientemente homogêneos para o objetivo do ensaio de proficiência, porque ss/σ = 0,26 é menor que o valor máximo recomendado de 0,3. Referências Bibliográficas ABNT ISO/IEC GUIA 43, 1999, Ensaios de Proficiência por Comparações Interlaboratoriais - Parte 1: Desenvolvimento e Operação de Programas de Ensaios de Proficiência. ANALYTICAL METHODS COMMITTEE, Robust Statistics – How not to reject outliers Part 1. Basic Concepts. Analyst, 1989, 114, 1693-1697. ANALYTICAL METHODS COMMITTEE. Internal quality control of analytical data. Analyst, v. 120, p. 29-34, 1995. ANALYTICAL METHODS COMMITTEE. Robust statistics: a method of coping with outliers. Technical Brief N.6, 2001. Disponível em: http://www.rsc.org/pdf/amc/brief6.pdf. CIENFUEGOS, F. Estatística Aplicada ao Laboratório. Rio de Janeiro, Interciência, 2005, 200p. CHUI, Q. S. H., BISPO, J. M. A., IAMASHITA, C. O., Estudo de homogeneidade de lote de material silício metálico candidato a material de referência, Quimica Nova, v.27, p.993, 2004. EURACHEM/CITAC Guide: Determinando a Incerteza na Medição Analítica, 2a Ed., ABNT, INMETRO, SBM - Brasil, 1998. EUROPEAN PROFICIENCY TESTING INFORMATION http://www.eptis.bam.de/. Acesso em: 20 de março de 2007. SYSTEM – EPTIS. GRUBBS, F.E. Procedures for Detecting Outlying Observations in Sample. Technometrics, v.11, p.1-21, 1969. KUSELMAN, I., Comparability of Analytical Results Obtained in Proficiency Testing Based on a Metrological Approach. Accreditation and Quality Assurance, v.10, p.466-470, 2006. LAWN, R.E., THOMPSON, M., WALKER, R.F., Proficiency Testing in Analytical Chemistry. The Royal Society of Chemitry, 1997, p110. LINSINGER, T.P.J., KANDLER, W., KRSKA, R. GRASSERBAUER, M. The Influence of Different Evaluation Techniques on the Results of Interlaboratory Comparison. Accreditation and Quality Assurance, v.3, p.322-327, 1998. MAIO, F. D. ; ZENEBON, O. ; TIGLEA, P. ; SAKUMA, A. M. Avaliação de Técnicas Estatísticas Aplicáveis a Programas de Ensaio de Proficiência para Chumbo em Sangue. In: VI Encontro do Instituto Adolfo Lutz, 2005, São Paulo. Revista do Instituto Adolfo Lutz. São Paulo, 2005. OLIVIERI, J. C. Programa interlaboratorial: proposta de modelo para interpretação de resultados de análises químicas. 2004. 102 f. Dissertação (Mestrado Profissional em Engenharia Mecânica) - Universidade Estadual de Campinas, Campinas 2004. TAVERNIERS, I.; DE LOOSE, M.; VAN BOCKSTAELE, E. Trends in quality in the analytical laboratory. II. Analytical method validation and quality assurance. Trends in Analytical Chemistry, v.23, n. 8, 2004. THOMPSON, M., LOWTHIAN, P.J. Statistical Aspects of Proficiency Testing in Analitical Laboratories. Part 3. Confirmatory Statistical Test for Scheme Organisers. Analyst, v.121, p.1597-1602, 1996. THOMPSON, M. Recent trends in inter-laboratory precision at ppb and sub-ppb concentrations in relation to fitness for purpose criteria in proficiency testing. Analyst, v.3, p. 385-386, 2000. THOMPSON, M., ELLISON, L.R. Fitness for purpose – the integrating theme of the revised Harmonised Protocol for Proficiency Testing in Analytical Chemistry Laboratories. Accreditation and Quality Assurance, v.11, p.373-378, 2006. THOMPSON, M.; ELLISON, S.L.R.; WOOD, R.; The International Harmonized Protocol for the Proficiency Testing of Analytical Chemistry Laboratories. Pure Applied Chemistry, v.78, n.1, p.145–196, 2006. UHLIG, S., LISCHER, P. Statistically-based Performance Characteristics in Laboratory Performance Studies. Analyst, v.123, p.167-172, 1998. WONG, S.K. A comparison of performance statistics for proficiency testing programmes. Accreditation and Quality Assurance, v.12, p.59-66, 2007.