Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009 Revisão à análise de significância estatística 1 Testes de Hipóteses Testes de Significância • Determinar o grau de confiança com que se pode concluir que os factos observados reflectem mais do que simples coincidência do acaso. • Em Data Mining/Machine Learning são tipicamente usados para avaliar se a amostra que estamos a estudar (factos observados) é fruto do acaso (se é ou não significativa). • Neste contexto são muitas vezes usados para detectar falsas descobertas. • Permitem também avaliar se tem cabimento esperar que os padrões extraídos dos dados de treino (amostra) ocorram em dados futuros. • Todos os testes envolvem duas componentes: – Um valor observado (obtido da amostra), – O valor esperado se nada mais do que variabilidade aleatória (acaso) operar nesta situação. • Vários testes disponíveis dependendo do tipo de situação:. 2 Testes de Hipóteses Testes de Significância (2) • Quando executamos um teste de significância estatística assumimos duas teses: – A hipótese especifica que a nossa investigação pretende averiguar (Hipótese alternativa H1), – A antítese da hipótese a investigar (Hipótese nula H0) • Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400 resultados positivos é significativo: – H0 - o novo medicamento não tem efeito significativo – H1 – o medicamento tem algum grau de eficácia na prevenção de AVCs • Em termos estatísticos: – H0 – o número de resultados positivos não é significativamente diferente do valor esperado por variabilidade aleatória MCE (mean chance expectation) – H1 – o valor observado é significativamente diferente do valor esperado. 3 Testes de Hipóteses Direccionalidade da Hipótese Alternativa • Dependendo do tipo de questão que queremos endereçar com a nossa hipótese alternativa, esta pode ser direccional ou não-direccional. – Não direccional, se não considerar em que sentido os valores observados se afastam do valor esperado (MCE). Assim temos: • H0: valor observado = MCE • H1: valor observado ≠ MCE – Direccional, se considera em que sentido os valores observados se afastam do valor esperado (MCE). • Ho: valor observado = MCE • H1: valor observado > MCE, • H1: valor observado < MCE. Testes de Hipóteses ou em alternativa 4 Exemplo • Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras obtido (59) é significativo (se a moeda é equilibrada o valor esperado é 50% do número de testes). • Usando a Binomial, com N=100,k=59,p=0.5,q=0.5. One-sided ou Onetailed test H1: nº caras > MCE. (Hipótese direccional) Este valor é denominado por p-value. • Notar que há mais 9 caras do que o esperado! • De todos os possíveis cenários com 100 lançamentos, apenas 4.46% têm no mínimo 59 caras. O resultado dos nossos lançamentos é significativo (probabilidade ≤ 0.05) Testes de Hipóteses 5 Exemplo • Agora para uma hipótese alternativa não direccional. • No nosso caso, H1: nº de caras ≠ MCE. • Ou seja, responder à pergunta: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras ou coroas (>50) tão grande ou igual ao valor obtido (59)”. • Neste teste, o valor observado não é significativo (0.0892 > 0.05) H1: nº caras ≠ MCE. (Hipótese direccional) Two-sided ou Twotailed test Valor da estatística das observações. z = ((k - μ ) ± 0.5) / σ • A pergunta do teste anterior era: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras (>50) tão grande ou igual ao valor obtido (59)” Testes de Hipóteses 6 Algumas Definições • p-value: é a probabilidade de obter (de forma aleatória) um resultado tão ou mais extremo do que o que foi observado, assumindo que a hipótese nula é verdadeira. Isto é P(Obs ≥ MCE | H0) • Interpretação alternativa, p-value é o grau de contradição da hipótese nula pelas observações na amostra estudada. Quanto menor, maior o grau de contradição. • α é o grau de significância. O valor tradicional é 5%, mas pode também ser de 1% ou outros valores entre [0,1]. • grau de confiança (1 - α). • α também define a região critica i.e. região onde a hipótese nula é rejeitada. α está relacionado com o erro Tipo I. • Erro tipo I, rejeitar H0 quando ela é verdadeira (α). • Erro tipo II, não rejeitar H0 quando ela é falsa (β). • Força do teste (power of the test): probabilidade de correctamente rejeitar H0. quando esta é falsa e não rejeitá-la quando ela é verdadeira. É, respectivamente, (1 - α) e (1 – β). Testes de Hipóteses 7 Intervalos de Confiança • Em alternativa aos p-values, podemos usar intervalos de confiança. Usa-se para estimar parâmetros da população usando a amostra e.g. estimar média (μ) de uma população usando média da amostra (x). • O grau de confiança C = 1- α determina a probabilidade de o intervalo produzido pelo método usado incluir o verdadeiro valor do parâmetro a estimar. Trabalha sempre com a estatística do teste. • Para C =0.95, z*=1.96, então IC = [x-1.96+σ/√n , x+1.96+ σ/√n] 8 Testes de Hipóteses Teste Binomial • Testa a significância do desvio de uma amostra representando um conjunto de experiências de Bernoulli em relação à distribuição teórica esperada dessas observações i.e as variáveis são dicotómicas – sucesso/insucesso. • É um teste exacto ! – Um teste de significância exacto é um teste onde todas as condições assumidas para a derivação da distribuição onde o teste estatístico é baseado são satisfeitas. Consequentemente, leva também à obtenção de um p-value exacto (e não aproximado). – Um teste aproximado é um teste onde a aproximação pode ser feita o mais precisa possível à custa da obtenção de uma amostra suficientemente grande. 9 Testes de Hipóteses Teste Binomial (2) • Parâmetros: – – – – – n, tamanho da amostra. k, número de observações com sucessos em n. p, probabilidade esperada para sucesso Cálculo computacionalmente q, probabilidade esperado para insucesso. pesado! Por vezes faz-se uma p=1–q (categorias dicotómicas!) aproximação à Gaussiana (Normal) n! prob(n, k , p, q) p k q nk k!(n k )! – Para one-sided test (H1: observações > MCE): • p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … + prob(n,n,p,q). 10 Testes de Hipóteses Testes Paramétricos • Estão relacionados com um ou mais parâmetros da população (distribuição assumida) e.g. média, desvio padrão. • Tipicamente é assumida a Gaussiana. • Testes de localização: relacionados com o valor esperado da população (média), onde o centro da população está localizado. • Vários tipos: – Uma amostra: dada uma amostra e um valor esperado de uma população, testar se a amostra foi tirada da população com o valor esperado dado. – Duas amostras independentes: dadas duas amostras independentes, testar se as amostra são originadas de populações com o mesmo valor esperado. – Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostra são tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância da diferença). 11 Testes de Hipóteses Student t-test • Assume uma distribuição Gaussiana (Normal) • Ideal para aplicar a amostra com N<30, para N≥30 devemos usar o z-teste. • É um teste de médias. • H0: μ = μ0 (μ0 é o valor esperado da população) • H1: μ ≠ μ0, μ < μ0, μ > μ0 (dependendo de ser two-sided ou one-sided) • Estatística do teste: TS X 0 S/ N – onde N é o tamanho da amostra, X média na amostra, S desvio padrão na amostra. • Quando H0 é verdadeira a TS segue uma distribuição tN-1 (N - 1 graus de liberdade i.e. nº de parâmetros que podem ser variados independentemente12 ). Testes de Hipóteses Student t-test (one sample) • Para um dado α fazemos o seguinte teste (sendo TS definida como): TS X 0 S/ N • Para – H1: μ ≠ μ0, TS ≤ -tN-1(α/2) ou TS ≥ tN-1(α/2) – H1: μ < μ0, TS < tN-1(α) – H1: μ > μ0, TS > tN-1(α) • Rejeitar H0 se o teste for positivo. • Os valores críticos de tN-1 podem ser obtidos de uma tabela… 13 Testes de Hipóteses Graus de liberdade Distribuição t-student Valor crítico α Valor da t-estatística • Upper critical values of Student's t distribution with degrees of freedom • Probability of exceeding the critical value 14 Testes de Hipóteses Student t-test (amostras independentes) • • Usado para verificar se as amostras provêm de populações com diferentes médias. Três situações possíveis (e respectivas def. de TS): 1. 2. 3. • Amostras de tamanhos e variância diferente, Amostras de tamanhos diferentes mas variância igual, Amostras de tamanhos e variância igual. Se H0 for verdadeira TS segue uma distribuição tDF: δ0 é a diferença entre valores esperados das populações 15 Testes de Hipóteses Student t-test (2) (amostras independentes) • Três situações possíveis para testar H0 – H0: μA - μB = δ0 • Para um dado valor de α, rejeitar H0 se as condições forem satisfeitas: – H1: μA - μB ≠ δ0 , se TS ≤ -tGL(α/2) ou TS ≥ tGL(α/2) – H1: μA - μB < δ0 , se TS < tGL(α) – H1: μA - μB > δ0 , se TS > tGL(α) • Os valores críticos de tGL são os mesmo da tabela apresentada anteriormente. 16 Testes de Hipóteses Student t-test (paired test) • • • • • É o t-test que nos vais ser mais útil. Assume amostra emparelhadas (por exemplo referente a observações no mesmo local ou tempo, etc). Determina se as amostras diferem de uma forma significativa, considerando as condições de que as diferenças entre pares são independentes e que seguem uma distribuição Normal. Hipóteses: – H0: μΔ = 0 – H1: μΔ ≠ 0 , μΔ < 0 ou μΔ > 0 Onde – Δ = XA – XB é a diferença emparelhada entre as duas amostras, – μΔ o valor esperado da diferença das populações. TS S / N – Onde Δ é a média das diferenças nas amostras, N o tamanho das amostras e SΔ o desvio padrão das diferenças nas amostras. Testes de Hipóteses 17 Student t-test (2) (paired test) • Quando H0 é verdadeira TS segue uma distribuição tN - 1 • Para um dado α fazemos os seguintes testes: – H1: μΔ ≠ 0 , se TS ≤ -tN - 1(α/2) ou TS ≥ tN - 1(α/2) – H1: μΔ < 0 , se TS < tN - 1(α) – H1: μΔ > 0 , se TS > tN - 1(α) • rejeitando H0 quando eles são verdadeiros. Os valores críticos de tN – 1 são os mesmo da tabela anterior. • Notar que este teste acaba por ser one-sample (as diferenças entre pares formam uma só amostra)! • Testes alternativos – Z-test quando N>30, – Mann-Whitney para amostras independentes de populações não Normais. – Binomial, Wilcoxon para amostras emparelhadas de populações não Normais. Testes de Hipóteses 18 Teste de Mann-Whitney-Wilcoxon • Teste não paramétrico de localização. Avalia se duas amostras tem origem na mesma população. Uma alternativa ao paired t-test. • Assume que as observações são independentes e contínuas ou ordinais i.e. é possível estabelecer uma ordem sobre as observações. • Testa (em vez de comparar médias) se as populações são idênticas. É um teste de ranks sinalizados (signed rank). • Determina se há uma tendência em seriar mais alto uma amostra (observação) em relação à outra e.g. valores médicos antes e depois de tratamento. Hipótese nula assume que não há tendência. • Hipóteses: – H0:ηA = ηB (nº de valores positivos ≈ nº de negativos i.e. não há tendência) – H1:ηA ≠ ηB , ηA > ηB ou ηA < ηB 19 Testes de Hipóteses rank das diferenças em valor absoluto Geração de ranks (com ties) Rank das diferenças com sinal Diferenças nulas são ignoradas Tratamento de empates (ties): se duas ou mais diferenças têm o mesmo valor então todos passam a ter o valor médio desses ranks. e.g. 3º,4º e 5ª dá rank 4 para todos. W é a soma dos ranks (sem valores nulos) Amostra A Amostra B Diferença entre amostras Valor absoluto da diferença Testes de Hipóteses 20 Teste de Mann-Whitney-Wilcoxon • Procedimento: – Calcular XA – XB, ignorar casos com valor zero, – Calcular |XA – XB|, rank deste valor e o rank sinalizado: • + se XA – XB > 0 • - se XA – XB < 0 – (soma de um rank = N(N-1)/2, sendo N o nº de observações) – Calcular W = soma dos signed ranks – Calcular δW W N ( N 1)( 2 N 1) 6 onde N é o nº de signed ranks considerados (sem os nulos). Consultar valores críticos de z – Estatística do teste é: W 0.5 z W Testes de Hipóteses numa tabela própria. Com N > 20 aproxima à Normal. 21 Teste de Associação • Testes não paramétricos que medem o grau de dependência entre duas variáveis aleatórias. • Não assumem nenhum tipo de distribuição. • Assume observações de frequência de variáveis categóricas. As variáveis da amostra estão “divididas” em categorias. • As observações das duas variáveis são agrupadas em classes independentes (disjuntas). • Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões. • Testes a estudar – Teste do Χ2 (chi quadrado) – Teste exacto de Fisher, 22 Testes de Hipóteses Teste do Χ2 • Hipóteses: – H0 : as variáveis são independentes – H1 : as variáveis não são independentes • Sendo X e Y as nossas variáveis estas podem ser agrupadas em I (i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência: • Onde Nij é a frequência observada da var X com a categoria i conjuntamente com a var Y com a categoria j. N i J N ij j 1 23 Testes de Hipóteses Teste do Χ2 (2) • Estatística do teste: TS I J ( Nij eij ) i 1 j 1 eij 2 • eij é a frequência esperada para a célula (i,j): eij N i N j N • Se H0 for verdadeira, a TS segue a distribuição Χ2(I-1)(J-1). • Nº de graus de liberdade = (I-1) x (J-1) • Para um dado α, rejeitamos a hipótese nula se: – TS > Χ2(I-1)(J-1)(α) 24 Testes de Hipóteses Exemplo com tabela 2 x 2 SEXO Homens Mulheres Total TB TB no SR 3534 1319 4853 Outras TB 270 252 522 Total 3804 1571 5375 H0 : tipo de tuberculose que causa a morte a estes indivíduos é independente do seu sexo. e11 = (4853 x 3804) / 5375 = 3434.6 Valor obtido da Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + ….. + (252 – 152.6)2 / 152.6 = 101.35 tabela de distribuição do Χ2. Para α=0.05 temos Χ2(1)(1)(0.05) =3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso. Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferente da proporção de mulheres. Isto é, há evidências de uma associação entre tipo de TB e sexo. 25 Testes de Hipóteses Características do teste do Χ2 • É um teste não direccional. É sempre two-sided. • É um teste aproximado. O p-value é obtido por aproximação. No problema anterior p-value < 0.00001. • Para observações pequenas é um teste pouco fiável. Para valores esperado pequenos (eij < 5) não deve ser usado. • No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade. TS ' 2 2 ( N ij eij ) 0.5 i 1 j 1 eij 2 • Para o problema anterior, Yates Χ2 = 100.39. Testes de Hipóteses 26 Teste Exacto de Fisher • O teste ideal para aplicar com tabelas de contingência de dados pequenos esparsos e não balanceados. • Não sofre dos mesmos problemas do teste Χ2 • Embora seja aplicável noutras situações, vamos sempre usar em tabelas 2 x 2 e com hipóteses alternativas direccionais (one-sided) i.e. afasta-se de H0 numa direcção específica! • É um teste exacto, portanto um p-value exacto. • A ideia geral é considerando a tabela de observações, “gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação e.g. que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens. 27 Testes de Hipóteses Teste Exacto de Fisher (2) • Considerando a tabela de contingência 2 x 2 geral, temos: Y1 Y2 Total X1 a b a+b X2 c d c+d Total a+c b+d n As margens estão a azul n = a+b+c+d • A probabilidade de obter (de forma aleatória) as observações desta tabela é: (a b)!(c d )!(a c)!(b d )! p n!a!b!c!d! • O p-value = ∑ p das tabelas tão ou mais extremas do que a observada. (tipicamente ∑ p: p < pobservada) • Para o exemplo anterior p-value = 2.959442371307591e-22 Testes de Hipóteses 28 Goodness-of-fit (testes para a qualidade do ajuste) • No nosso caso, vai servir para verificar se duas amostras foram retiradas de uma mesma população. Tradicionalmente são utilizados para verificar a qualidade da adequação (fit) de uma distribuição teórica em relação a um conjunto de observações (amostra) e.g. testar a Normalidade de uma amostra. • Testes não paramétricos: – Para amostras de valores contínuos • Kolgomorov-Smirnov – Para amostras de valores categóricos 2 • Pearson’s goodness-of-fit (Χ ) Testes de Hipóteses 29 2 Χ Goodness-of-fit • Verifica se duas amostras têm origem em populações idênticas. • H0 : populações A e B são idênticas • H1: populações A e B são diferentes • As observações NA e NB são agrupadas em K (K > 2) categorias (disjuntas). • Em cada amostra é contada a frequência absoluta de cada diferente ki categoria, com ki∈K. • As frequências esperadas são calculadas da seguinte forma: Nk ekA N A N ekB N k ekA • com Nk = NkA + NkB , N = NA + NB sendo ∑ekA= NA e ∑ekB= NB 30 Testes de Hipóteses 2 Χ Goodness-of-fit (2) • A estatística do teste é: ( N kA ekA ) 2 K ( N kB ekB ) 2 TS ekA ekB k 1 k 1 K 2 • H0 é verdadeira se TS segue uma distribuição Χ K-1 • Para um dado α, rejeitamos H0 se: – 2 TS > Χ K-1(α) 31 Testes de Hipóteses Teste de Kolgomorov-Smirnov (duas amostras) 2 • É um teste exacto (Χ é aproximado) para amostras de valores contínuos. • Assume distribuições contínuas onde a forma e os parâmetros da função densidade de probabilidade são conhecidos • O teste compara a proximidade entre as funções de densidade acumulada (CDF) de cada amostra (também conhecidas por funções de distribuição empirica). • Encontra a máxima discrepância entre as duas CDFs e verifica se esta é estatisticamente significativa. • CDF das amostras são definidas como (N = ∑xi): FA ( x) : xi S ( xi ) xj N :x j xi 32 Testes de Hipóteses Teste de Kolgomorov-Smirnov (2) (duas amostras) • H0 : FA(x) = FB(x) • H1 : FA(x) ≠ FB(x) • A estatística do teste é: TS D ' max S A ( x) S B ( x) x • Para um dado α, rejeitamos H0 se o seguinte teste for verdadeiro: N ANB D' D' ( ) N A NB • Os valores críticos de √[(NANB )/(NA + NB )]D’(α) podem ser consultados na tabela da distribuição de Kolgomorov. 33 Testes de Hipóteses Teste de Kolgomorov-Smirnov (3) (execução) TS D ' max S A ( x) S B ( x) x 34 Testes de Hipóteses Múltiplas Hipóteses • Controle da capitalização do acaso. • Exemplo de situação típica: Teste Binomial com: n=14, k=11, p=0.5, q=0.5, e H1: obs > MCE – Queremos contratar um corrector para investir na bolsa. A função deste corrector é emitir previsões sobre a subida/descida do indicador PSI20 ao fim de cada dia. Queremos ter a garantia que não contratamos um charlatão (alguém cujas previsões não são melhores do que o acaso). Para avaliar esta possibilidade usamos um teste de 14 dias de bolsa. Se o consultar acertar em 11 ou mais dias então aceitamo-lo como fiável. – São 11 em 14 dias porque há 50% de hipóteses de acertar em cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais dias. – Assim, se um corrector for contratado porque passou o teste dos 11 dias, temos uma probabilidade ≤ 0.0287 de contratar um charlatão. 35 Testes de Hipóteses Múltiplas Hipóteses • Nova situação: – Vamos imaginar agora que aceitamos 10 candidatos para esta função, onde vamos seleccionar o corrector com maior precisão. – Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o teste. – Em geral, a probabilidade de seleccionar um charlatão n é ≤ 1 - (1 – 0.0287) . No caso de n=10, esta probabilidade é ≤ 25.3% – Conclusão: Se não ajustarmos o nosso limite α, que define quando um corrector passa a ser considerado um charlatão, aumentamos a probabilidade de ocorrer um erro do tipo I. – Com um nº suficientemente grande de charlatães entre os candidatos, iremos quase de certeza ter pelo menos um deles com um desempenho que passa qualquer limite α (sem a garantia de ele não ser um charlatão). Testes de Hipóteses 36 Múltiplas Hipóteses (2) • Problema das Multiplas Comparações. Risco de erro tipo I é não mais do que α. • Probabilidade de ocorrer um erro de tipo I aumenta com o número de testes. n • Para n testes αreal = 1 - (1 - α) • Usar Ajustamento de Bonferroni: – (corrigir α para n testes como sendo κ= α/n) – tendência a ser um crivo demasiado fino! • Usar Ajustamento de Holm (k em vez de α). – Requer ordenação crescente dos p-values e ter disponíveis todos estes valores antes de determinar valor de ajustamento (k). – Para n testes, k max( pi : 1 j i p j Testes de Hipóteses n j 1 ) 37 Ajustamento de Bonferroni (utilização típica em Data Mining) • Usar Ajustamento de Bonferroni (corrigir α para n testes como sendo κ= α/n). • Usar layered critical values, • Em vezes de um cutoff global que corrige o α inicial, obter vários α’L para cada nível L. 'L ( Lmax S L ) Onde SL é o nº de padrões possíveis de gerar com tamanho L. Lmax é o tamanho máximo de um padrão. Temos a garantia que: L ' Lmax L SL 1 Testes de Hipóteses 38 Resumo • Testes de significância, • Inferência estatística e controle de fenómenos fruto do acaso, • Tipos de erro, • Testes paramétricos e não paramétricos, • Direccionalidade, poder do teste, região crítica, p-value e intervalos de confiança, • Testes de localização, associação e goodnessof-fit, • Múltiplas hipóteses e controle de erro, • Ajustamento do valor de significância (α). 39 Testes de Hipóteses