MOQ-23 ESTATÍSTICA Professor: Rodrigo A. Scarpel [email protected] www.mec.ita.br/~rodrigo Programa do curso: SEMANA 9 10 11 12 13 14 15 16 CONTEÚDO Inferência baseada em 2 amostras Teste de aderência e análise de dados categorizados Regressão linear simples. Estimação dos parâmetros pelo método dos mínimos quadrados. Coeficiente de determinação. Aplicações de modelos de regressão linear. Prova Hipóteses de um modelo de regressão. Estimação de parâmetros pelo método da máxima verossimilhança. Inferência em análise de regressão. Previsão utilizando regressão linear simples. Regressão linear múltipla. Distribuição F de Snedcor. Análise de variância (ANOVA). Princípios de experimentação e algumas aplicações em engenharia Prova MOQ-23 ESTATÍSTICA TESTE DE ADERÊNCIA E ANÁLISE DE DADOS CATEGORIZADOS Professor: Rodrigo A. Scarpel [email protected] www.mec.ita.br/~rodrigo O processo de inferência: TESTAR ADERÊNCIA POPULAÇÃO AMOSTRA HIPÓTESES ESTIMAÇÃO DOS PARÂMETROS FAZER INFERÊNCIAS EM RELAÇÃO A POPULAÇÃO Hipóteses: - iid ⇒ Amostra aleatória - Distribuições populacional e amostral (TLC) - Parâmetros conhecidos ou não (σ σ) Testes de aderência e análise de dados categorizados: • São testes estatísticos aplicados quando as observações de uma amostra podem ser classificadas como pertencentes a um número finito de categorias, sendo pi a probabilidade de uma observação pertencer a categoria i. • Assim, estes testam a hipótese nula que especifica completamente os valores de todos os pis para verificar a discrepância entre os números observados nas categorias e os números esperados quando H0 é verdadeira. Testes de aderência e análise de dados categorizados: • Def: Experimento multinomial: é uma generalização do experimento binomial (sequência de testes independentes nos quais cada um pode produzir um de dois possíveis resultados, S e F) permitindo que cada teste resulte em um de k possíveis resultados, em que k > 2. • No experimento multinomial seleciona-se n indivíduos de uma população, então pi é a proporção da população que pertence a iésima categoria. • A hipótese nula dos testes (H0) especificará o valor de cada pi. Testes de aderência e análise de dados categorizados: • Em um exemplo binomial, o número esperado de sucessos e fracassos é n.p e n(1-p), respectivamente. • Da mesma forma, no caso multinomial, o número esperado de observações na categoria i é npi, i = 1,…,k. • Se no caso binomial: H0: p = p0 • No caso multinomial: H0: p1 = p10 , p2 = p20 , …, pk = pk0 • O procedimento do teste envolve o cálculo da discrepância entre os nis (observados) e os npi0s (esperados) sendo H0 rejeitada quando a discrepância for suficientemente grande. Testes de aderência e análise de dados categorizados: • Medida de discrepância: o natural é tomar a soma dos desvios quadrados (n1-np10)2,…, (nk-npk0)2 mas ao invés de tirar a média, cada desvio quadrado será dividido pelo valor esperado correspondente. Assim, k Discrepância = ∑ (ni − npi )2 npi i =1 • = ∑ todas as células (observado − esperado)2 esperado Procedimento do teste: H0: p1 = p10 , p2 = p20 , …, pk = pk0 Ha: pelo menos um pi é diferente de pi0 • k (ni − npi 0 )2 i =1 npi 0 Estatística do teste: X = ∑ 2 Região de rejeição: X2 ≥ X2α, k-1 Testes de aderência e análise de dados categorizados: • Teste de homogeneidade: É um teste aplicado quando há I populações e cada uma delas é dividida nas mesmas J categorias. Assim, uma amostra de ni indivíduos é tomada da iésima população. • Procedimento do teste: H0: a proporção de indivíduos na categoria j é a mesma para cada população, ou seja, p1j = p2j = … pIj , j = 1, 2, …, J Ha: H0 não é verdadeira Estatística do teste: X2 = ∑ (observado − esperado)2 todas as células Região de rejeição: X2 ≥ X2α, (I-1)(J-1) esperado I J = ∑∑ i =1 j =1 [nij − eij ] 2 eij Teste de homogeneidade: exemplo H0: a proporção de indivíduos na categoria j (intenção de compra) é a mesma para cada população (produto): p1j = p2j =… pIj , j = 1, 2 Ha: H0 não é verdadeira Produto A Comprariam Produto B Total 150 (144) 138 (144) 288 Não comprariam 50 Total 200 (56) 62 200 (56) 112 400 χ2 = (150-144)2/144 + (50-56)2/56 + (138-144)2/144 + (62-56)2/56 = 1,79 Testes de aderência e análise de dados categorizados: • Teste de independência: É um teste aplicado quando há uma única população e cada indivíduo é categorizado em relação a dois fatores diferentes, havendo I categorias associadas ao primeiro fator e J categorias associadas ao segundo fator. • Procedimento do teste: H0: pij = pi. . p.j , i = 1, 2, …, I e j = 1, 2, …, J Ha: H0 não é verdadeira Estatística do teste: X 2 = ∑ (observado − esperado)2 todas as células Região de rejeição: X2 ≥ X2α, (I-1)(J-1) esperado I J = ∑∑ i =1 j =1 [nij − eij ] 2 eij Testes de aderência e análise de dados categorizados: MINERAÇÃO DE DADOS: ASSOCIAÇÃO ENTRE EVENTOS MARCA Antarctica Brahma Kaiser Schincariol Skol TOTAL AB 25 31 25 4 47 132 C 30 36 33 15 38 152 DE 17 22 22 30 25 116 TOTAL 72 89 80 49 110 400 Associação positiva entre classes DE e SCHIN P(SCHIN) = 49/400 = 12,25% P(SCHIN/DE) = 30/116 = 25,8% Associação negativa entre classes DE e SKOL P(SKOL) = 110/400 = 27,5% P(SKOL/DE) = 21,5% Teste de independência: Exemplo O consumo do produto A independe de classe social? H0: Consumo do produto A e classe social são independentes Ha: Consumo do produto A depende da classe social Valores esperados Valores observados Classe Classe C Total A/B Classe Classe C Total A/B Consomem o produto A 180 160 340 Consomem o produto A 141,7 198,3 340 Não consomem 70 190 260 Não consomem 108,3 151,7 260 Total 250 350 600 Total 250 350 600 χ2 = (180-141,7)2/141,7 + (160-198,3)2/198,3 + (70-108,3)2/108,3 + (190-151,7)2/151,7 = 40,79 Testes de aderência e análise de dados categorizados: Teste de X 2 quando os pis são funções de outros parâmetros: • Quando os pis são supostos dependentes de um número menor de θm com m<k), o teste pode ser utilizados para checar parâmetros (θ θ1,…,θ se uma amostra provém de uma distribuição de probabilidades específica. Assim, H0: p1 = π1(θ θ), p2 = π2(θ θ) ,…, pk =π πk(θ θ) em que θ = (θ θ1,…, θm) Ha: H0 não é verdadeira Estat. teste: X 2 = ∑ todas as células (observado − esperado)2 esperado [ N − nπ (θˆ )] =∑ nπ (θˆ ) k i i =1 Região de rejeição: X2 ≥ X2α, k-1-m OBS: Na prática o teste pode ser utilizado se nπ πi(θ θ) ≥5%, ∀i. O número de gl é reduzido pelo número de θi estimados. i i 2 Teste de Aderência: Exemplo H0: p1 = π1(θ θ), p2 = π2(θ θ) ,…, pk =π πk(θ θ) em que θ = (θ θ1,…, θm) Ha: H0 não é verdadeira Acidentes 0 1 2 3 4 5 6 7 Freq 25 35 18 13 4 2 2 1 Oi 25,0% 35,0% 18,0% 13,0% 4,0% 2,0% 2,0% 1,0% 40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% 0 1 2 3 4 -5,0% Pi Ei Polinômio (Ei) 5 6 7 Para casa: • Lista de Exercícios 7 (site: www.mec.ita.br/~rodrigo/) • Leitura: Devore – cap. 14: Testes de aderência e análise … Walpole et al. – cap. 9 (9.8, 9.9 e 9.11): Problemas de … – cap. 10 (10.14 a 10.18): Testes de …