Verificação da Normalidade Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são: H0: A distribuição dos dados (a variável) pode ser considerada como tendo distribuição Normal; X H1:A distribuição dos dados (a variável) NÃO pode ser considerada como tendo distribuição Normal. Vários testes foram desenvolvidos para verificar a hipótese acima, teste do Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, teste de Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros. Verificaremos a seguir como realizar um testes de normalidade no MINITAB. Em Basics Statistics vamos em Normality Test..., Na tela nova selecionamos a var. que desejamos testar (via Select) e optamos por um dos 3 testes disponíveis. Kolmogorov-Smirnov é o mais conhecido, porém realizaremos o teste Shapiro-Wilk, por estar sendo mais requisitado atualmente. Então seleciono a var. dpeso e vou testar se ela possui ou não dist. Normal. OK O resultado é um gráfico cujos pontos em devem estar bastante próximos da reta em vermelho. MAS acredite mesmo no p-value fornecido pelo teste. Neste caso um p = 0.64 nos leva a não rejeitar H0, logo assumimos que a var. possui distribuição Normal. Vc irá verificar normalidade de vars. numéricas contínuas ou discretas e vars. categóricas ordinais, jamais de vars. categóricas nominais. Exemplo em que rejeitamos a normalidade da variável, p < 0.05. INTERVALOS DE CONFIANÇA Estimativas como média, mediana, desvio padrão,..., são conhecidas como estimativas pontuais, pois através de um único valor desejamos expressar as características de nossa variável. Veremos agora como expressar nossas variáveis através de um conjunto de valores, ou seja, um intervalo com limite inferior e superior que contenha nosso parâmetro e no qual se possa depositar um grau de confiança de que o verdadeiro valor (desconhecido) esteja nele contido. Este tipo de estimação é chamada de estimação por intervalos e estes são conhecidos como INTERVALOS DE CONFIANÇA. Os IC têm sempre a seguinte forma : Estimativa pontual Valor crítico da distrib.*Erro padrão est. É na escolha do valor crítico da distribuição que definimos o grau de confiança (1 - ) que iremos associar ao nosso intervalo. Com um = 0.05 temos um intervalo de confiança de 95%, de = 0.01, a confiança é 99% Calcularemos um IC de 95% (grau de confiança) para a média como exemplo, todos os demais IC’s seguem a mesma lógica, obviamente cada um utilizará o valor crítico da distribuição que for pertinente. Desejamos construir um intervalo de confiança de 95% para uma média (Xm).Vimos na aula de testes de hipóteses que se uma população tem dis tribuição Normal com média µ e dp , então a distr. de Xm em amostras de tamanho N será Normal com média µ e dp = /rqN = Erro padrão Então, para a dist. de Xm, podem-se estabelecer os valores de z1 e z2 da distribuição Normal reduzida , tais que a probabilidade de µ - z1*erro padrão < Xm < µ + z2*erro padrão = 95% , então se (1 - ) = 95% , = 0.05, que na tabela da Normal reduzida equivale ao valor 1.96. Substituindo µ e pelas estimativas fornecidas pelos meus dados tenho a fórmula para o cálculo do meu IC (95%): Xm - 1.96*s/rqN < Xm < Xm + 1.96*s/rqN ou Xm 1.96*Erro padrão Exemplo: Em uma amostra de tamanho 10 de neonatos aidéticos o peso médio foi de 700 g. com dp = 100g. Estabeleça um IC (95%) para o peso dos neonatos aidéticos. 700 1.96* 100/rq10 = 700 61.98 = IC (95%) = (638.01 ; 761.98) Se calculamos um IC de (99%), então = 0.01 corresponde a 2.58 na Nor mal reduzida temos 700 2.58*100/rq10= 700 81.59 = (618.4 ; 781.5) Observe que o intervalo de 95% tem uma amplitude menor que o de 99%, logo quanto mais confiança desejo na estimativa, maior será o intervalo. Se ao invés de N = 10 minha amostra fosse de N = 30 o intervalo seria de 700 1.96*100/rq30= 700 35.78 = (664.2 ; 735.8) Observe que o intervalo de N = 30 tem uma amplitude menor que o de N =10, logo quanto maior a minha amostra menor será meu intervalo, mais preciso. Interpretação comum do IC (95%): Se coleto apenas uma e somente uma amostra, posso afirmar que tenho 95% de chance que o parâmetro está contido no intervalo estimado. Note que isto não significa que posso, ou devo, afirmar que tenho 95% de chance que o parâmetro de outra amostra esteja contido no intervalo anterior. Interpretação correta: Se realizar 100 procedimentos iguais a este , no mínimo em 95 deles a média obtida estará dentro do intervalo estimado. São calculados IC para praticamente todos os parâmetros estimados na Estatística: média, variância, mediana, coeficiente de correlação, diferenças de médias, proporções, odds ratio, sensibilidade, especificidade, coefi cientes de regressão, quartis, diferença de proporções, médias pareadas,... Os IC’s para a diferença entre médias (independentes ou pareadas) são particularmente úteis, pois a sua construção (observação) dispensa até a realização do teste estatístico. Se o IC das diferenças contém o valor 0, quer dizer que existe uma boa chance de uma média ser equivalente à outra. X - Y = 0 ; X = Y. Se o IC das diferenças não contém o valor 0, quer dizer que existe uma boa chance de uma média ser diferente da outra. X - Y 0 ; X Y. Testes estatísticos que envolvem inferências a respeito de uma ou duas médias – Família dos testes “t” OBJETIVO : Comparar a média de uma amostra com a média conhecida de uma população. Variável envolvida: 1-A variável da qual será obtida a média amostral que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais. Exemplos:- A média da pressão arterial dos policiais é equivalente à média da população em geral? -O no. de crises epilépticas dos pac.com cisticercose é equivalente ao no. de crises da pop. em geral ? -O nível educacional dos pais de formandos da universidade pública é equivalente ao nível da pop. em geral. SUPOSIÇÕES:1 A variável precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. 2 As observações (xi) são independentes uma das outras. Tese de hipótese associado H0: = µ X H1: µ ou H0: A média amostral é equivalente à média da população X H1: Não é equivalente (Bicaudal) Teste estatístico: Se além da média da população também for conhecido o dp é o teste z para uma amostra (raríssimo). Quando estimamos o dp da nossa amostra será o teste t para uma amostra. Procedimento: a estatística tem distribuição t com n-1 graus de liberdade. Então acho o valor da est. e comparo com o valor da distribuição t com n-1 g.l. e nível de significância adotado. Normalmente (99.9%) = 0.05. OU (mais comum) verifico qual a probabilidade do valor da est. numa distr. t com n-1 g.l. e comparo com = 0.05. Se for menor rejeito HO Exemplo: Foram coletadas amostras de sangue de 18 pacientes com câncer e medida uma substância X, onde obtivemos média = 3.2 e dp = 1.1. Sabe que na população o valor médio desta substância é 2.5. Há diferença desta substância entre os pac. com câncer e a pop. em geral ? Substituindo na fórmula temos: (3.2 - 2.5)/(1.1/rq18) = 2.69. O valor de 2.69 numa distr. T com 17 g.l. equivale a uma ‘p value’ de 0.0146, menor que 0.05, portanto rejeito H0. Como meu teste era bicaudal eu concluo que os pac. com câncer têm média superior desta substância que a pop. em geral. Graus de liberdade: Conceito ligado ao número de dados disponíveis (livres) para o cálculo da estatística; número de componentes independentes menos o número de parâmetros estimados. Sabe-se que o peso médio das jogadoras russas de voley é de 65 kq. A CBV quer saber se as jogadoras brasileiras possuem peso médio equivalente ou não a das russas, para tanto coletou uma amostra de jogadoras e pesou-as, obtendo os valores ao lado. Percorrendo o nosso velho caminho ‘Stats’, ‘Basic Statistics’, vamos em ‘1- Sample t’. Na nova janela colocamos a var. e o valor que queremos com parar (65) com a nossa média.Ok No output temos: o teste de hipótese explicitado, as estatísticas da var. um intervalo de confiança da média da var., o valor da estatística e proba bilidade a ele associado. Logo se meu p-value < 0.001 eu rejeito H0 (0.001 < 0.05), como a média das brasileiras é inferior à das russas, concluo que as brasileiras possuem média significativamente inferior à das russa. Clicando em ‘Options’, na tela seguinte controlamos se o teste será bicaudal ou monocaudal. OBJETIVO : Comparar as médias de duas amostras independentes. Salientando que comparar as médias significa verificar se há ou não diferença entre os valores de cada amostra, realizamos uma extrapolação a partir do resultado. Amostras independentes: As unidades amostrais, os elementos da amostra, são diferentes em cada amostra, não há relação, não há vínculo entre eles, são unidades amostrais diferentes em cada amostra. Variáveis envolvidas: 1-A var. referente aos grupos que serão comparados, que pode ser cat. nominal (Com/Sem), cat. ordinal ou quantitativas contínuas ou não, desde que categorizadas em 2 categorias (Acima de x/Abaixo de x) 2 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais. Exemplos: - A média da taxa de iodo entre os sexos é equivalente. -A renda média das famílias com filhos é semelhante à renda média das famílias sem filhos. - O valor de ansiedade (IDATE) de pessoas com mais de 1,70 de altura é equivalente ao valor das pessoas com menos de 1,70 SUPOSIÇÃO :1 A variável que será comparada (2) precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. O procedimento correto é testar a normalidade para cada nível da var. categorizada 2 As observações (xi) de cada grupo são independentes uma das outras. Graficamente Tese de hipótese associado H0: Média da amostra 1 = Média da amostra 2; X H1: Média da amostra Média da amostra 2 (Bicaudal) Teste estatístico: Verificada e não rejeitada a hipótese de normalidade é o teste t para amostras independentes. Procedimento: a estatística onde tem distribuição t (n1+ n2 - 2) graus de liberdade. Então acho o valor da est. e comparo com o valor da distribuição t com (n1+n2 -2) g.l. e nível de significância adotado. Normalmente = 0.05. OU (mais comum) verifico qual a probabilidade do valor da est. numa distr. t com (n1+n2-2) g.l. e comparo com = 0.05. Se for menor rejeito HO Observe que temos duas médias e dois desvios padrões estimados (um de cada amostra), se os 2 desvios padrões não forem equivalentes,há uma modificação na fórmula (não apresentaremos) e no número de graus de liberdade. Portanto é necessário testar se os dps são ou não equivalentes. Teste da homogeneidade das variâncias. Exemplo: Duas amostras de 8 pgs foram coletadas. Uma das amostras ingeriu uma caneca de café com uma concentração x de cafeína e a outra ingeriu uma caneca sem cafeína. Após ambos os grupos foram assistir a aula de estatística e contou-se o no. de bocejos de cada aluno. Será que a cafeína influi no grau de atenção ? Calculo as médias e dps de cada grupo: Calculo a parte inferior da fórmula desvio padrão conjugado Calculo a fórmula toda Então meu teste forneceu o valor de 2.81. O valor de = 0.05 numa dist. t com 14 g.l. é 2,15, como 2.81 > 2.15 Rejeito HO . De outro modo, o valor 2,81 corresponde a uma p-value de 0.015, logo 0.015 < 0.05 Rej.H0 Uma pesquisa do CRM quer verificar se os oftalmologistas recebem mais po hora de plantão que os ortopedistas. Temos uma coluna com a var. real_ hora(contínua) e uma com a variável Med, onde 1 = Ort. e 2 = Oft. Vamos em ‘Stat’, ‘Basic Stat..,e em 2-Sample t. Lembre-se que seria necessário antes testar a normalidade Aviso que as amostras estão em uma coluna; Coloco a var. real_h em’Samples’ e os grupos em‘Subscripts’. Observe que ao não marcar o campo ‘Assume equal variances’ estou assumindo que as variâncias NÃO são equivalentes. E OK Two-sample T for real_hora med N Mean StDev 1 125 32,1 15,3 2 65 34,8 24,9 Difference = mu (1) - mu (2) Estimate for difference: -2,77 T-Test of difference = 0 (vs not =): T-Value = -0,82 P-Value = 0,414 DF = 89 Temos o tamanho de cada grupo com suas médias e dps, uma estimativa da diferença, o teste de hipótese,o valor do teste, o valor de p-value e o no. de graus de liberdade. Repare que o no. de g.l. = 89 é diferente de (n1+ n2 - 2) pois assumi que as variâncias não eram equivalentes, mas como sei isto? Testando. Vamos... em ‘2 Variances’ e na tela resultante preenchemos Samples e Subscripts como anteriormene e OK Temos um I.C, as estimativas do dp,o Teste F e o de Levene que comparam se dois desvios padrões são ou não equivalentes. O p-value < 0.001 indica que rejeitamos a hipótese H0 de igualdade entre as variância. Portanto quando rejeito a hipótese de igualdade dos dps.eu não assinalo o quadrado de “Assume equal variances”; se não rejeito a igualdade das variâncias eu assinalo o quadrado. Se clicarmos botão ‘Options’ da tela do teste t para 2 amostras teremos a tela ao lado, onde podemos controlar se deseja mos um teste bicaudal (not equal) ou monocaudal (less than ou greater than) Portanto antes de realizar o teste t para amostras independentes é necessário testar a normalidade e se as variâncias são homogêneas. OBJETIVO: Comparar as médias de duas amostras pareadas, correlacionadas, ou seja, não independentes. Amostras pareadas são aquelas em as medidas são realizadas na mesma unidade amostral, o sujeito é controle dele mesmo. A situação mais comum ocorre quando realizamos uma medida antes de algum procedimento, evento, e depois realizamos a mesma medida após o procedimento, evento, na mesma amostra. Entretanto há outras situações, como duas medidas comparáveis em uma unidade amostral, p. ex., comparar o lado direito contra o esquerdo na mesma unidade amostral, ou comparar duas técnicas realizadas na mesma unidade amostral. Variáveis envolvidas: 1 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais. Tenha atenção, pois na planilha os valores referentes à 1a. medida devem estar numa coluna e os valores referentes à 2a. medida em outra coluna, e, obviamente, as medidas do mesmo unidade amostral na mesma linha. Motivos para usarmos este teste e não o teste t para amostras independentes: 1 - O fato da mesma unidade amostral ser utilizada duas vezes introduz uma correlação, a medida do “depois” pode depender, até certo ponto, da medida do “antes”. Exemplo das dietas. 2 - Este teste é mais poderoso que o teste para amostras independentes, uma das maiores fontes de variabilidade é a variabilidade entre os sujeitos, repetindo as medidas nos mesmos sujeitos a variabilidade entre sujeitos é menor (o sujeito é controle dele mesmo), e portanto uma real diferença entre as medidas é mais fácil de ser detectada. Amostras menores. Teste de hipótese associado H0: A diferença entre as médias = 0; X H1: A diferença entre as médias 0 Observe que este teste é semelhante ao teste t para uma amostra, teremos uma nova “variável” que é a diferença = Antes - Depois, e testaremos se a sua média difere ou não significativamente de 0 Teste estatístico: Teste t para amostras pareadas ou correlacionadas. Procedimento: Exemplificando para facilitar: Temos duas medidas realizadas nos mesmos sujeitos Suj Antes Depois Antes - Depois O passo inicial é computarmos as 1 420 380 40 diferenças e calcularmos a média 2 235 230 5 das diferenças. Repare que a média 3 280 300 -20 das diferenças é igual a diferença 4 360 260 100 das médias. Depois calculo o des 5 305 295 10 vio padrão da diferença = 34.4 6 215 190 25 7 200 200 00 De posse da média e do dp da di8 460 410 50 ferença vou realizar um teste t pa9 345 330 15 ra uma amostra, comparando a mé 10 375 380 -5 dia da diferença amostral com a méMédia 319.5 297.5 22 dia conhecida 0 Portanto utilizamos a estatística do teste t para uma amostra: (Média - )/(s/rqn), onde sempre substituiremos por zero, e já sabemos que esta estatística tem uma distribuição t com número de pares -1 graus de liberdade. A conclusão do teste é sempre a mesma: Se o t estimado for maior que o t tabelado Rejeito H0, ou se o ‘p-value’ for menor que o nível de significância adotado (0.05) Rejeito H0. Terminando o exemplo temos (22 - 0)/(34.4/rq10) = 22/10.9 = 2.02 Este valor corresponde a uma probabilidade na tabela t com 9 g.l. (no.de pares -1) igual a 0.074. Rejeito ou não H0, qual a conclusão? SUPOSIÇÃO :1 A variável ‘DIFERENÇA’ precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. Portanto teste a normalidade da variável Diferença e não a normalidade das variáveis originais. 2 As diferenças (di) são independentes uma das outras. Um grupo de 56 crianças obesas foi submetido a uma dieta, teste se 3 meses após houve redução significativa do peso. Stats, Basic Statistics, e vamos em ‘Paired t’. Na nova tela coloco o peso antes em ‘First sample’ e o peso depois em ‘Second sample’ Qual tipo de teste posso realizar nesta situação, mono ou bicaudal ? Paired T-Test and CI: pesoant; pesodep Paired T for pesoant - pesodep N Mean StDev SE Mean pesoant 56 69,98 9,58 1,28 pesodep 56 64,98 11,34 1,51 Difference 5 -5,000 2,355 0,315 95% CI for mean difference: (-8.00;- 2.00) T-Test of mean difference = 0 (vs > 0): T-Value = -15,95 P-Value = 0,000 Portanto aplicando um teste monocaudal (fui em Options e clicei em Greater Than) temos as estatísticas descritivas, o I.C. de 95% para a diferença da média, o teste de hipótese (monocaudal), o valor de T estimado e o p-value relativo a ele. Rejeitamos H0, há queda significativa 1)Comparar uma média amostral com uma média conhecida, se dp conhecido: Teste Z Se dp desconhecido (estimado a partir da amostra) : Teste t para uma amostra Verificar a normalidade 2)Comparar duas médias amostrais Teste t para amostras independentes (unidades amostrais independentes distintas) - Verificar normalidade da amostra em cada grupo - Verificar homogeneidade das variâncias (teste F) 3)Comparar duas médias amostrais Teste t para amostras pareadas ou correlacionadas pareadas (mesma unidade amostral) - Verificar normalidade da “variável diferença”