Noções de Inferência Estatística
AULA 21 – Parte I
Data Mining
Sandra de Amo
Como inferir a qualidade de um classificador a
partir de sua performance sobre uma amostra ?
Classificadores são avaliados sobre uma amostra de dados e não sobre o
conjunto total de dados.
Seja D um conjunto de N amostras de teste;
 Seja M um modelo de classificação

Acurácia Empírica de M = K/N, onde K = número de amostras
classificadas corretamente em N tentativas.


Se a acurácia empírica é alta podemos dizer que M é um bom classificador ?
Exemplo




MA foi testado em um conjunto de 30 amostras
 Acc(MA) = 85%
MB foi testado em um conjunto de 5000 amostras
 Acc(MA) = 75%
Podemos concluir que MA é melhor do que MB ?
Perguntas importantes:
 Qual o intervalo de confiança da acurácia obtida por MA ?
 Qual o intervalo de confiança da acurácia obtida por MB ?
 Os conjuntos de dados de testes seguem uma mesma distribuição ?
Inferência Estatística
Inferência Estatística = Processo de obter conclusões
confiáveis sobre uma população geral, baseando-se em
uma amostragem de dados.
Estatísticas: medidas extraídas de uma amostragem de
dados através das quais se quer derivar resultados para a
população geral.
Média e Variância de uma Amostragem
Algumas estatísticas importantes:
Seja X uma variável aleatória (Por exemplo Altura)
Consideremos N observações X1,..., XN extraídas aleatoriamente
de uma população com distribuição de probabilidade com
média
Por exemplo: X1 = 1.55, X2 = 1.59, X3 = 1.65,...
Xi é o evento X = altura do indivíduo sorteado.

Média da amostragem

Variância da amostragem
Valor esperado da Média da
amostragem
 Valor esperado da média da amostragem
 Logo: as médias das amostragens se aproximam da
média geral da população, sobretudo para valores
grandes de N
 A estatística “média” é chamada de estimador nãotendencioso da população.
Valor esperado da Variância da
Amostragem
 Teorema: Valor esperado da variância da média da
amostragem é dado por:
onde σX é a variância da população geral
SeσX for desconhecido será aproximado pela variância da amostragem sX

= desvio padrão da média das amostragens
Teorema do Limite Central
Seja uma população X com distribuição de probabilidade com média μX e
variância σ2X.
Considere uma amostragem de tamanho N extraída aleatoriamente da população
X. Se x é a média da amostragem , então a distribuição de x se aproxima
de uma distribuição normal com média μX e variância (σ2X )/N quando N é
grande.
Distribuição normal (ou de Gauss).
Vários fenômenos aleatórios seguem
uma distribuição normal (ou de Gaus)
de probabilidade.
Muito importante. Tabelas disponíveis.
Fácil de avaliar.
Intervalo de Confiança
Estimativa dos parâmetros de uma população (ex: média, variância):
muito importante indicar a confiabilidade da estimativa.
Exemplo 1: suponha que queiramos estimar o quanto um grupo de 10000
pessoas do sexo masculino representam a população masculina brasileira
em termos de altura.
Isto é, o quanto podemos confiar que a altura média destes 10.000 indivíduos
representam a altura média da população masculina brasileira, com um
grau de confiança de 95%
Este é um exemplo do seguinte problema:
Conhece-se a média REAL e deseja-se saber o quanto uma amostra
considerada aleatoriamente está perto desta média REAL
Distribuição Normal
0,95
Area abaixo do gráfico
entre -2 e 2 = 0,95
Média real
Intervalo de confiança

Considera-se a tabela de distribuição normal com média μX e
variância (σ2X )/N, onde N = 10.000

Intervalo de confiança (θ1 , θ2 ) com grau de confiança =
0.95


Considera-se as extremidades do intervalo em torno da média da
distribuição

Θ1 = μX - k

Θ2 = μX + k
Tal que: P[θ1 < X < θ2 ] = 0.95
Exemplo1 : Continuação

Seleciona-se aleatoriamente um grupo de 10000 homens

A probabilidade que a média da altura destes 10.000 homens
esteja no intervalo [μX - k, μX + k] é 95%
onde θ1 = μX - k e Θ2 = μX + k
A distribuição normal padrão Z

Toda distribuição normal de média μX e variância σ2X pode ser
transformada em uma distribuição padrão de média 0 e variância 1.
Distribuição normal (μX, σ2X )  distribuição padrão Z (1,0)

A partir da distribuição padrão Z (tabelada), encontra-se a distribuição
normal específica X :

P[X = x] = P[Z = z] onde z = (x – μX)/ σX
Exemplo 2



Suponha que não conhecemos a média (real) μX da altura da
população masculina brasileira.
Queremos estimar esta média a partir de uma amostra de uma
amostra X de 10.000 homens considerada aleatoriamente, com uma
confiança de 68%
De acordo com o Teorema do Limite Central: a média das amostras
se aproxima de uma distribuição normal com média
μX e variância σ2X/N
Média da altura da amostragem (N = 10000)
Exemplo 2 (continuação)
Procurando na tabela de probabilidade de Z, o intervalo [-a,a] onde
P[-a < Z < a] = 0.68 obtemos a = 1
Portanto: o intervalo de confiança para a amostra X considerada é de
[
,
] com grau de confiança de 68%
Isto é, temos 68% de certeza de que a média REAL da população encontra-se
dentro deste intervalo.
Como calcular σx
Método 1:
Considera-se diversas amostras de N = 10.000 homens (por exemplo 100 amostras)

Para cada amostra calcula-se sua média.

Calcula-se a média de todas as 100 médias

σ x = desvio padrão das 100 médias
Método 2:

Na prática, pode-se aproximar σ x pelo desvio padrão da amostragem sX
considerada, onde:
Comparação de Classificadores
AULA 21 – Parte II
Data Mining
Sandra de Amo
Acurácia Empírica e Acurácia Real

Acurácia empírica de um modelo de classificação é obtida
sobre um conjunto Teste com N amostras
 Acurácia empírica = X/N, onde
 X = número de amostras preditas corretamente

Acurácia Real = p = acurácia “hipotética” que seria medida
sobre o conjunto de todas as amostras possíveis.

Dada uma amostra qualquer, a probabilidade de que o classificador
acerte a predição é p.
Relação entre Acurácia Empirica e
Acurácia Real

Medir a acurácia empirica sobre um conjunto T de N amostras = experimento
binomial, consistindo em N tentativas.
X = variável aleatória
X = número de acertos em N tentativas
P[X = v] = probabilidade de haver v acertos em N tentativas, sabendo que a
probabilidade de acerto em cada tentativa é p.
Distribuição de probabilidade binomial

Média = Np, Variância = Np(1-p)




Distribuição da Acurácia Empírica


Acurácia empírica: variável aleatória X/N
Distribuição de probabilidade de X/N também é binomial com:





Média = p
Variância = p(1-p)/N
Distribuição binomial pode ser aproximada por uma distribuição normal
quando N é grande
Logo: distribuição de probabilidade da Acurácia Empírica pode ser
considerada uma distribuição NORMAL com Média p e Variância p(p-1)/N
Lembrando relação entre distribuição normal e distribuição padrão Z:
p(p-1)/N
p
acc =
Média do número de acertos em N tentativas = acurácia empírica
Cálculos



Seja a = grau de confiança
Procura-se na tabela de Z o intervalo [-b,b] para o qual
P[-b < Z < b ] = a
Usando-se a equação
p(p-1)/N
p
acc
Média do número de acertos em N tentativas = acurácia empírica
Obtém-se o seguinte intervalo de confiança para p: [θ1, θ2 ] onde
θ1 = (2N.acc +b2 – b
(b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)
θ2 = (2N.acc +b2 + b
(b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)
Exemplo




Suponha um modelo de classificação que tem uma acurácia de 80% quando
calculado sobre um conjunto de teste de 100 amostras.
Qual o intervalo de confiança de sua acurácia REAL com um grau de confiança
de 95% ?
Acc = 0.80, N = 100, a = 0.95
Tabela de Z
a
b
Fazendo-se os cálculos temos: θ1 = 71.1% e θ2 = 86,7%
θ1
Variação do intervalo de confiança quando o número de amostras aumenta
θ2
Comparando a performance de dois
modelos



M1 = modelo de um classificador C extraido de um conjunto
de treinamento T1
 Testado sobre D1, com n1 elementos
 e1 = taxa de erro = 1 – acc1
M2 = modelo de um classificador C extraido de um conjunto
de treinamento T2
 Testado sobre D2, com n2 elementos
 e2 = taxa de erro = 1 – acc2
A diferença entre e1 e e2 é estatisticamente significante ?
Método

d = |e1 – e2| = |acc1 – acc2|
d obedece uma distribuição normal com

média dt = diferença real |e1 – e2| e
Variância estimada

variância σd2
σd2 pode ser aproximada por σd2 = e1(1-e1)/n1 + e2(1-e2)/n2

Intervalo de confiança de dt com a% de grau de confiança


dt = d±b σd
Desvio padrão estimado = sd
b = valor encontrado na distribuição Z correspondente a a%
Exercício: deduzir esta fórmula a partir da relação entre a distribuição padrão Z e
a distribuição normal d (ver slide 15)
Exemplo





M1 = modelo de um classificador C extraido de um conjunto de
treinamento T1
 Testado sobre D1, com 30 elementos
 e1 = taxa de erro = 1 – acc1 = 0.15
M2 = modelo de um classificador C extraido de um conjunto de
treinamento T2
 Testado sobre D2, com 5000 elementos
 e2 = taxa de erro = 1 – acc2 = 0.25
d = |e1 – e2| = 0.1
Variância estimada = 0.15(1-0.15)/30 + 0.25(1-0.25)/5000=
0.0043
Desvio padrão estimado = 0.0043 = 0.0655
Exemplo (continuação)
Qual o significado do intervalo de confiança [θ1, θ2 ] ?
Estamos testando 2 hipóteses:
Hipótese Nula: dt = 0
a diferença real entre os erros é nula
Hipótese alternativa: dt < > 0
a diferença real entre os erros NÃO é nula
(pode ser < 0 ou > 0 )
Exemplo (continuação)
Queremos encontrar b na tabela da
distribuição padrão Z tal que:
P[-b < (d – dt)/sd < b] = a
a
A interpretação do intervalo
[θ1, θ2] é a seguinte:
Se dt = 0 está em [θ1, θ2] então a
d (que está em [θ1, θ2] ) não tem
significância estatistica
dt
d – dt > 0
θ1
d
dt
θ2
dt
d – dt < 0
Se dt = 0 não está em [θ1, θ2] (está em
uma das duas regiões caudais) então
d tem significância estatistica.
O valor b na tabela Z
A tabela Z envolve duas tabelas:
Unicaudal
Duplamente caudal
Para cada valor de a, pode-se encontrar dois valores de b: um
para o caso unicaudal e outro para o caso duplamente
caudal.
Exemplo (continuação)
No exemplo : b = 1,96 (duplamente caudal)
Como o valor nulo (dt = 0) está no intervalo (0.1 – 0.128; 0.1 + 1.28)
então a diferença de performance entre os dois modelos não tem significância
estatística.
Variando o grau de confiança




Quanto deveria ser o grau de confiança para que a diferença
de performance d = 0.1 tivesse significância estatística ?
0.1 > b.0,0655 ?
b < 0.1/0.655 = 1.527
Procurando o valor de a na tabela duplamente caudal
correspondente a b = 1.527:
 a = 93.6%
 Logo, a hipótese nula pode ser rejeitada com um grau de
confiança 93.6%
Comparando a performance de dois
classificadores









L1 = técnica de classificação
L2 = técnica de classificação
Os testes de L1 e L2 foram feitos sobre um mesmo banco de dados D
utilizando k-cross validation.
M1i = modelo de L1 obtido durante a i-ésima iteração
M2i = modelo de L2 obtido durante a i-ésima iteração.
Os modelos M1i e M2i são testados sobre o mesmo conjunto de teste
(correspondente a i-ésima iteração)
e1i = taxa de erro de M1i e e2i = taxa de erro de M2i
di = e1j – e2j = diferença das taxas de erro na i-ésima iteração
Se k é suficientemente grande (o número de vezes que o experimento é
realizado é grande) então di segue uma distribuição normal


Média δt = média das diferenças das taxas de erro “verdadeiras”
Variância σ2
Estimativa do variância
σ2
d = média estimada da diferença dos erros
δt
σ
Grau de liberdade (degree of freedom)
Exemplo
Suponha que a média das diferenças estimadas é 0.05
com desvio padrão de 0.002
Os testes são feitos utilizando 30-cross validation
Com um grau de confiança a = 95% a diferença real
dos erros (ou da acurácia) é:
δt =
Intervalo de confiança = [0.05 – 0.00408; 0.05 + 0.00408] =
= [0.04592; 005408]
Distribuição t com graus de liberdade.
k – 1 = 29
Como o valor zero (hipótese nula) não está contido no intervalo de confiança
[0.04592; 005408] então podemos concluir que a diferença de performances entre
as duas técnicas de classificação é estatisticamente significante.
Download

Slides