MOQ-23
ESTATÍSTICA
Professor: Rodrigo A. Scarpel
[email protected]
www.mec.ita.br/~rodrigo
Programa do curso:
SEMANA
9
10
11
12
13
14
15
16
CONTEÚDO
Inferência baseada em 2 amostras
Teste de aderência e análise de dados categorizados
Regressão linear simples. Estimação dos parâmetros pelo
método dos mínimos quadrados. Coeficiente de determinação.
Aplicações de modelos de regressão linear.
Prova
Hipóteses de um modelo de regressão. Estimação de parâmetros
pelo método da máxima verossimilhança. Inferência em análise de
regressão.
Previsão utilizando regressão linear simples. Regressão linear
múltipla.
Distribuição F de Snedcor. Análise de variância (ANOVA).
Princípios de experimentação e algumas aplicações em
engenharia
Prova
MOQ-23
ESTATÍSTICA
TESTE DE ADERÊNCIA E ANÁLISE
DE DADOS CATEGORIZADOS
Professor: Rodrigo A. Scarpel
[email protected]
www.mec.ita.br/~rodrigo
O processo de inferência:
TESTAR
ADERÊNCIA
POPULAÇÃO
AMOSTRA
HIPÓTESES
ESTIMAÇÃO DOS
PARÂMETROS
FAZER INFERÊNCIAS EM
RELAÇÃO A POPULAÇÃO
Hipóteses: - iid ⇒ Amostra aleatória
- Distribuições populacional e amostral (TLC)
- Parâmetros conhecidos ou não (σ
σ)
Testes de aderência e análise de dados categorizados:
•
São testes estatísticos aplicados quando as observações de uma
amostra podem ser classificadas como pertencentes a um número
finito de categorias, sendo pi a probabilidade de uma observação
pertencer a categoria i.
•
Assim, estes testam a hipótese nula que especifica completamente os
valores de todos os pis para verificar a discrepância entre os números
observados nas categorias e os números esperados quando H0 é
verdadeira.
Testes de aderência e análise de dados categorizados:
•
Def: Experimento multinomial: é uma generalização do experimento
binomial (sequência de testes independentes nos quais cada um pode
produzir um de dois possíveis resultados, S e F) permitindo que cada
teste resulte em um de k possíveis resultados, em que k > 2.
•
No experimento multinomial seleciona-se n indivíduos de uma
população, então pi é a proporção da população que pertence a iésima categoria.
•
A hipótese nula dos testes (H0) especificará o valor de cada pi.
Testes de aderência e análise de dados categorizados:
•
Em um exemplo binomial, o número esperado de sucessos e fracassos é
n.p e n(1-p), respectivamente.
•
Da mesma forma, no caso multinomial, o número esperado de
observações na categoria i é npi, i = 1,…,k.
•
Se no caso binomial: H0: p = p0
•
No caso multinomial: H0: p1 = p10 , p2 = p20 , …, pk = pk0
•
O procedimento do teste envolve o cálculo da discrepância entre os nis
(observados) e os npi0s (esperados) sendo H0 rejeitada quando a
discrepância for suficientemente grande.
Testes de aderência e análise de dados categorizados:
•
Medida de discrepância: o natural é tomar a soma dos desvios quadrados
(n1-np10)2,…, (nk-npk0)2 mas ao invés de tirar a média, cada desvio
quadrado será dividido pelo valor esperado correspondente. Assim,
k
Discrepância =
∑
(ni − npi )2
npi
i =1
•
=
∑
todas as
células
(observado − esperado)2
esperado
Procedimento do teste:
H0: p1 = p10 , p2 = p20 , …, pk = pk0
Ha: pelo menos um pi é diferente de pi0
•
k
(ni − npi 0 )2
i =1
npi 0
Estatística do teste: X = ∑
2
Região de rejeição: X2 ≥ X2α, k-1
Testes de aderência e análise de dados categorizados:
•
Teste de homogeneidade:
É um teste aplicado quando há I populações e cada uma delas é dividida nas
mesmas J categorias. Assim, uma amostra de ni indivíduos é tomada da iésima população.
•
Procedimento do teste:
H0: a proporção de indivíduos na categoria j é a mesma para cada população,
ou seja, p1j = p2j = … pIj , j = 1, 2, …, J
Ha: H0 não é verdadeira
Estatística do teste:
X2 =
∑
(observado − esperado)2
todas as
células
Região de rejeição: X2 ≥ X2α, (I-1)(J-1)
esperado
I
J
= ∑∑
i =1 j =1
[nij − eij ] 2
eij
Teste de homogeneidade: exemplo
H0: a proporção de indivíduos na categoria j (intenção de compra) é a mesma
para cada população (produto): p1j = p2j =… pIj , j = 1, 2
Ha: H0 não é verdadeira
Produto A
Comprariam
Produto B Total
150 (144) 138 (144) 288
Não comprariam
50
Total
200
(56)
62
200
(56)
112
400
χ2 = (150-144)2/144 + (50-56)2/56 + (138-144)2/144 + (62-56)2/56 = 1,79
Testes de aderência e análise de dados categorizados:
•
Teste de independência:
É um teste aplicado quando há uma única população e cada indivíduo é
categorizado em relação a dois fatores diferentes, havendo I categorias
associadas ao primeiro fator e J categorias associadas ao segundo fator.
•
Procedimento do teste:
H0: pij = pi. . p.j , i = 1, 2, …, I e j = 1, 2, …, J
Ha: H0 não é verdadeira
Estatística do teste: X 2 =
∑
(observado − esperado)2
todas as
células
Região de rejeição: X2 ≥ X2α, (I-1)(J-1)
esperado
I
J
= ∑∑
i =1 j =1
[nij − eij ] 2
eij
Testes de aderência e análise de dados categorizados:
MINERAÇÃO DE DADOS: ASSOCIAÇÃO ENTRE EVENTOS
MARCA
Antarctica
Brahma
Kaiser
Schincariol
Skol
TOTAL
AB
25
31
25
4
47
132
C
30
36
33
15
38
152
DE
17
22
22
30
25
116
TOTAL
72
89
80
49
110
400
Associação positiva entre classes DE e SCHIN
P(SCHIN) = 49/400 = 12,25%
P(SCHIN/DE) = 30/116 = 25,8%
Associação negativa entre classes DE e SKOL
P(SKOL) = 110/400 = 27,5%
P(SKOL/DE) = 21,5%
Teste de independência: Exemplo
O consumo do produto A independe de classe social?
H0: Consumo do produto A e classe social são independentes
Ha: Consumo do produto A depende da classe social
Valores esperados
Valores observados
Classe Classe C Total
A/B
Classe Classe C Total
A/B
Consomem o
produto A
180
160
340
Consomem o
produto A
141,7
198,3
340
Não
consomem
70
190
260
Não
consomem
108,3
151,7
260
Total
250
350
600
Total
250
350
600
χ2 = (180-141,7)2/141,7 + (160-198,3)2/198,3 + (70-108,3)2/108,3
+ (190-151,7)2/151,7 = 40,79
Testes de aderência e análise de dados categorizados:
Teste de X 2 quando os pis são funções de outros parâmetros:
•
Quando os pis são supostos dependentes de um número menor de
θm com m<k), o teste pode ser utilizados para checar
parâmetros (θ
θ1,…,θ
se uma amostra provém de uma distribuição de probabilidades
específica. Assim,
H0: p1 = π1(θ
θ), p2 = π2(θ
θ) ,…, pk =π
πk(θ
θ) em que θ = (θ
θ1,…, θm)
Ha: H0 não é verdadeira
Estat. teste: X 2 =
∑
todas as
células
(observado − esperado)2
esperado
[
N − nπ (θˆ )]
=∑
nπ (θˆ )
k
i
i =1
Região de rejeição: X2 ≥ X2α, k-1-m
OBS: Na prática o teste pode ser utilizado se nπ
πi(θ
θ) ≥5%, ∀i.
O número de gl é reduzido pelo número de θi estimados.
i
i
2
Teste de Aderência: Exemplo
H0: p1 = π1(θ
θ), p2 = π2(θ
θ) ,…, pk =π
πk(θ
θ) em que θ = (θ
θ1,…, θm)
Ha: H0 não é verdadeira
Acidentes
0
1
2
3
4
5
6
7
Freq
25
35
18
13
4
2
2
1
Oi
25,0%
35,0%
18,0%
13,0%
4,0%
2,0%
2,0%
1,0%
40,0%
35,0%
30,0%
25,0%
20,0%
15,0%
10,0%
5,0%
0,0%
0
1
2
3
4
-5,0%
Pi
Ei
Polinômio (Ei)
5
6
7
Para casa:
• Lista de Exercícios 7 (site: www.mec.ita.br/~rodrigo/)
• Leitura: Devore – cap. 14: Testes de aderência e análise …
Walpole et al. – cap. 9 (9.8, 9.9 e 9.11): Problemas de …
– cap. 10 (10.14 a 10.18): Testes de …
Download

S10 - TESTE DE ADERÊNCIA e DADOS CATEGORIZADOS