ESTATÍSTICA
ESTATÍSTICA
NÃO-PARAMÉTRICA
NÃO-PARAMÉTRICA
Prof. Dr. Edmilson Rodrigues Pinto
Faculdade de Matemática - UFU
[email protected]
1
Programa
•
-
Introdução
Plano de curso, sistema de avaliação
Conceitos básicos de inferência – Testes de hipóteses;
Introdução à estatística não-paramétrica – conceitos básicos, nível de
mensuração, vantagens e desvantagens.
• Testes para o caso de uma amostra
- Teste da Binomial;
- Teste qui-quadrado;
- Teste de Kolmogorov-Smirnov;
- Teste de Lilliefors;
- Teste de iterações de uma amostra.
• Caso de duas amostras relacionadas
- Testes dos sinais;
- Teste de McNemar;
- Teste de Wilcoxon.
2
•
•
•
•
-
Caso de duas amostras independentes
Teste da mediana;
Teste de iterações de Wald –Wolfowitz;
Teste U de Mann-Whitney;
Teste de Moses para reações extremas;
Teste qui-quadrado para duas amostras independentes.
Caso de k amostras relacionadas
Teste Q de Cochran;
Teste de Friedman.
Caso de k amostras independentes
Teste da mediana;
Teste de Kruskal-Wallis.
Medidas de correlação
Coeficiente por postos de Kendall;
Coeficiente de correlação por postos de Spearman;
Coeficiente de concordância de Kendall.
3
1
BIBLIOGRAFIA
BIBLIOGRAFIA
• Siegel, S., Castellan, Jr., N. J. 2006. Estatística Não
Paramétrica. 2ª edição, Editora Artmed, Porto Alegre.
• Conover, W. J., 1980, Practical Nonparametric
Statistics. 2nd ed. John Wiley & Sons, New York.
• Bolfarine, H., Sandoval, M. C.,
2001. Introdução à
Inferência Estatística. Coleção Matemática
Aplicada,
Sociedade Brasileira de Matemática.
• Bussab, W. O., Morettin, P. A., (2002). Estatística
Básica. Editora Saraiva, São Paulo.
4
Conceitos básicos de inferência
- População: conjunto de valores de uma característica
(observável) associada a uma coleção de indivíduos ou objetos
de interesse.
- Amostra aleatória: seqüência de n variáveis aleatórias X 1 ," , X n
independentes e identicamente distribuídas (iid).
- Parâmetro: é uma medida usada para descrever uma
característica de interesse.
- Estatística: qualquer função da amostra que não depende dos
parâmetros desconhecidos.
- Espaço paramétrico: o conjunto Θ em que θ toma valores.
- Estimador: qualquer estatística que assuma valores em Θ .
5
Amostra
Estimador
População
Parâmetro
(Estimativa)
média
X
variância
S
proporção
p̂
2
μ
σ2
p
6
2
Teorema Central do Limite (TCL)
Sejam X 1 ," , X n n variáveis aleatórias independentes, tais que
E ( X i ) = μi e Var ( X i ) = σ i2 , ambas finitas.
Seja X = X 1 + " + X n , então, sob determinadas condições
Z=
X −E(X )
Var ( X )
→ N ( 0,1)
n →∞
7
Corolário: Distribuição amostral da média com variância
conhecida.
Considere uma amostra aleatória de tamanho n, X 1 ," , X n , da
variável aleatória X, com E ( X i ) = μ
e Var ( X i ) = σ 2 . Seja
n
X = ∑ i =1 X i n , a média amostral. Então,
Z=
X −μ
→ N ( 0,1)
n n→∞
σ
8
Distribuição t de Student
Suponha que as variáveis aleatórias Z e V sejam independentes,
com Z ~ N ( 0,1) e V ~ χ k2 , então
T=
Z
~ tk
V k
9
3
Teorema: Seja X 1 ," , X n uma amostra aleatória de tamanho n
da distribuição N ( μ , σ 2 ) , então
i) X e S 2 são independentes;
ii)
iii)
( n − 1) S 2 ~ χ 2
n −1
2
σ
X −μ
~ tn −1
S n
10
Resumo: Populações normais (aprox. normais)
Distribuição amostral para
2
X (σ conhecido)
X (σ 2 desconhecido)
Distribuição
X −μ
~ N ( 0,1)
σ n
X −μ
~ tn −1
S n
( n − 1) S 2 ~ χ 2
n −1
2
S2
σ
pˆ − p
p̂
p (1 − p ) n
~ N ( 0,1)
11
O QUE É UM TESTE DE HIPÓTESES ?
ACEITA
TESTE DE
HIPÓTESE
ESTUDO
DE UM
FENÔMENO
FORMULAÇÃO
DE UMA
HIPÓTESE
EVIDÊNCIA
AMOSTRAL
REJEITA
12
4
Comparação do
MODELO DE TESTE com a evidência amostral
PARAMÉ
PARAMÉTRICO
MODELO
MODELO
NÃONÃO-PARAMÉ
PARAMÉTRICO
PROBLEMAS
PARAMÉ
PARAMÉTRICO
NÃONÃO-PARAMÉ
PARAMÉTRICO
13
Teste de hipótese paramétrico
Chamamos hipótese estatística qualquer afirmação acerca da
distribuição de uma ou mais variáveis aleatórias.
H0: hipótese nula (hipótese de interesse)
H1: hipótese alternativa (qualquer outra hipótese que difere de H0.
Associados às hipóteses H0 e H1 definimos os conjuntos Θ0 e Θ1
com Θ = Θ0 ∪ Θ1
14
Chamamos de teste de uma hipótese estatística a função de
decisão
d : S → {a0 , a1}
Onde:
- a0: decisão de aceitar H0 como verdadeira.
- a1: decisão de aceitar H1 como verdadeira.
- S: denota o espaço amostral associado à amostra X 1 ," , X n
A função d divide o espaço amostral em dois conjuntos disjuntos
A0 = {( x1 ," , xn ) ∈ S ; d ( x1 ," , xn ) = a0 } e
A1 = {( x1 ," , xn ) ∈ S ; d ( x1 ," , xn ) = a1}
A0 : região de aceitação de H0
e A1 : região de aceitação de H1
15
5
• Erro tipo I: rejeitar H0, quando H0 é verdadeira
• Erro tipo II: aceitar H0, quando H0 é falsa
Decisão
Realidade
Aceitar de H0
Rejeitar H0
H0 verdadeira
H0 falsa
Correto
Erro do Tipo II
Erro Tipo I
Correto
α = P ( Erro Tipo I ) =P ( rejeitar H 0 H 0 verdadeira )
β = P ( Erro Tipo II ) =P ( aceitar H 0 H 0 falsa )
16
θo
θ1
xc
α
β
θo
xc
β
θ1
α
17
Objetivo de um teste de hipótese
Dizer, através de uma estimativa θˆ, obtida através de uma amostra,
se H0 é ou não aceitável. Isto é conseguido através de uma região
crítica (RC). Caso o valor observado pertença a esta região,
rejeitamos H0, caso contrário não rejeitamos H0. Esta região é
construída de modo que
(
)
P θˆ ∈ RC H 0 verdadeira = α
Obs.: a construção da RC é sempre feita sob a hipótese de H0 ser
verdadeira.
18
6
Passos para a construção de um teste de hipóteses
1)
Fixe as hipótese H0 e H1
2)
Use a teoria estatística e as informações disponíveis para
decidir qual estatística será usada para julgar a hipótese H0
3)
Fixe a probabilidade α de se cometer o erro tipo I e use esse
valor para construir a RC, sob H0 verdadeira.
4)
Use as informações fornecidas pela amostra para encontrar o
valor da estatística que definirá a decisão
5)
Se o valor da estatística, observado na amostra, não
pertencer à RC, aceite H0, caso contrário, rejeite.
19
Exemplo 1: considere uma máquina que enche pacotes de café,
μ = 500g
segundo uma distribuição normal com média
e
2
2
variância σ = 400g . Desejamos, de meia em meia hora, colher
uma amostra de 16 pacotes e verificar se a produção está sob
controle. Se uma dessas amostras apresentasse média X = 492 g ,
você pararia ou não a produção para fazer um ajuste? Use α = 0, 01
20
Exemplo 2: Um fabricante afirma que seus cigarros contêm
30mg de nicotina. Uma amostra de 25 cigarros fornece média de
31,5mg de nicotina e desvio padrão de 3mg. Supondo que a
quantidade de nicotina no cigarro segue uma distribuição normal
e considerando um nível de 5% de significância, os dados
refutam ou não a afirmação do fabricante?
21
7
Nível descritivo do teste – p-valor
Corresponde ao menor nível de significância para o qual a
hipótese nula é rejeitada para a dada observação (sob H0
verdadeira).
Esta quantidade é chamada de nível descritivo do teste,
probabilidade de significância ou p-valor. Notação: α̂
Ao saber o valor de α̂ o pesquisador pode escolher o próprio
nível de significância, como sendo a probabilidade máxima
tolerável de um erro tipo I.
22
No caso de dados normais e hipóteses sobre μ , calculamos α̂
como:
H 0 : μ = μ0
-Teste unilateral à esquerda:
H1 : μ < μ 0
αˆ = P ( X ≤ xobs H 0 verdadeira )
- Teste unilateral à direita: H1 : μ > μ0
αˆ = P ( X ≥ xobs H 0 verdadeira )
- Teste bilateral: H1 : μ ≠ μ0 . Consideram-se dois casos:
- Caso 1) se xobs < μ0 , αˆ = 2 P ( X ≤ xobs H 0 verdadeira )
- Caso 2) se xobs > μ0 , αˆ = 2 P ( X ≥ xobs H 0 verdadeira )
23
Exemplos: Calcule o p-valor para o exemplo 1 (problema da
máquina que enche pacotes de café) e para o exemplo 2
(problema da fábrica de cigarros).
24
8
Estatística Não-paramétrica – Testes não-paramétricos
A estatística não-paramétrica pode ser definida como uma
coleção de métodos estatísticos, aplicada a conjuntos de dados
onde as suposições distribucionais, necessárias para a aplicação
de uma técnica clássica, não são satisfatoriamente atendidas.
É também bastante útil no tratamento de dados onde o nível de
mensuração das observações não é dos melhores.
25
• Vantagens
- Dispensam normalidade dos dados;
- O p-valor é exato (no caso paramétrico, o cálculo do p-valor se
baseia na distribuição normal);
- São testes mais simples;
- São úteis quando é difícil estabelecer uma escala de valores
quantitativos;
- São mais eficientes que os testes paramétricos, quando não
existe normalidade.
26
• Desvantagens
- Proporcionam um desperdício de informações, já que, em
geral, não consideram a magnitude dos dados;
- Quando as suposições do modelo estatístico são atendidas, são
menos eficientes;
- A utilização das tabelas dos testes é mais complicada.
27
9
• Nível de mensuração dos dados
- Escala nominal: Neste nível se situam todas as observações
que são categorias e não têm ordem natural.
- Escala Ordinal: as observações são categorias que têm uma
ordem natural.
- Escala intervalar: tem todas as características da escala
ordinal com a vantagem de poder quantificar a diferença entre
dois números desta escala
Obs.: Alguns autores apontam ainda a existência de uma outra
escala. A escala da razão, equivalente à escala intervalar,
porém o valor zero é o verdadeiro ponto de origem.
28
Testes para o caso de uma amostra
Os testes não paramétricos para o caso de uma amostra são
usados para testar a aderência de uma distribuição, ou seja, para
verificar se determinada amostra provém de uma determinada
população com uma distribuição específica
29
Teste da Binomial
- A distribuição Binomial
Considere uma amostra aleatória X 1 ," , X n da variável aleatória
n
de Bernoulli com parâmetro p. Seja X = ∑ X i . Desta forma,
X ~ Bin(n, p)
i =1
Numa distribuição binomial, temos:
- Para cada ensaio, o resultado é sucesso ou fracasso.
- A probabilidade de sucesso não se altera com a repetição do
experimento;
- Os ensaios são independentes.
30
10
Procedimento do teste
O teste da binomial é aplicado em amostras provenientes de
populações que constituem-se de apenas duas categorias
(variáveis dicotômicas). É útil para verificarmos se a proporção
de sucesso p̂ , observada na amostra, pode pertencer a uma
população com um determinado valor de p.
Hipóteses
H 0 : p = p0
H1 : p < p0
H1 : p > p0
H1 : p ≠ p0
31
Estatística do teste
Seja X 1 ," , X n uma amostra aleatória da população de interesse.
X i ~ Ber ( p ) . Seja X: o número de resultados, com a
característica de interesse, na amostra.
Assim, X ~ Bin(n, p )
Decisão
Seja x o número de resultados observado. Para um nível de
significância α , temos
- Para um teste unilateral à esquerda
Rejeitamos H0 se P ( X ≤ x ) < α , caso contrário, aceitamos.
- Para um teste unilateral à direita
Rejeitamos H0 se P ( X ≥ x ) < α , caso contrário, aceitamos.
32
- Para um teste bilateral
Rejeitamos H0 se
P ( X ≥ x ) < α 2 ou
aceitamos H0.
P ( X ≤ x) < α 2
, caso contrário,
Modo prático
- Se x < np0 , rejeitaremos H0 se 2P ( X ≤ x ) < α
- Se x > np0 , rejeitaremos H0 se 2P ( X ≥ x ) < α
33
11
Exemplo 1: Suponhamos que numa dada família nasceram 12
filhos, 5 do sexo masculino e 7 do sexo feminino. Os pais querem
saber se a probabilidade de nascer filho do sexo masculino ou
feminino é igual.
Exemplo 2: Em uma plantação de algodão foram observadas, ao
acaso, 10 plantas e constatou-se que apenas uma apresentava-se
infectada com uma certa moléstia de raízes. Considerando que
uma infestação abaixo de 30% é controlável, verifique a hipótese
de que a plantação está sob controle.
34
Exemplo 3 A lei de Mendel afirma que para 4 genes, 3 são
dominantes e 1 é recessivo. Em um certo experimento, observouse 54 genes dominantes e 26 recessivos. Verifique, pelo teste da
binomial, se a lei de Mendel se aplica ao experimento realizado.
35
12
Download

Material 1 - Especialização Estatistica Empresarial