Capítulo 7
Conhecendo os Dados
Técnicas para extrair informações e gerar
conhecimento de conjuntos de dados
Distrib u ição d as id ad es d o s fu n cio n ário s
14
número de funcionários
12
10
8
6
4
2
0
10
20
30
40
idade
50
60
70
Conhecendo os Dados
O objetivo da análise exploratória de dados é
examinar a estrutura subjacente dos dados e
aprender sobre os relacionamentos sistemáticos entre
muitas variáveis.
A análise exploratória de dados inclui um conjunto de
ferramentas gráficas e descritivas, para explorar os
dados, como pré-requisito para uma análise de dados
mais formal (Predição e Testes de Hipóteses), e como
parte integral formal da construção de modelos.
A AEA facilita a descoberta de conhecimentos
não esperados, como também ajuda a
confirmar o esperado.
Como uma importante etapa em Data Mining, a
AED emprega técnicas estatísticas descritivas e
gráficas para estudar um conjunto de dados,
detectando outliers e anomalias, e testando as
suposições do modelo.
A AED é um importante pré-requisito para se
alcançar o sucesso em qualquer projeto de data
mining.
Distribuições de Freqüências

organização dos dados de acordo com as
ocorrências
dos
diferentes
resultados
observados.
– Pode ser apresentada: em tabela ou em gráfico;
– com
freqüências
absolutas,
relativas
ou
porcentagens.
Exemplo (com variável qualitativa)
Grau de instrução do chefe da casa, numa amostra de 40 famílias do Conj. Resid. Monte Verde, Florianópolis, SC, 1988.
Códigos:
1 - nenhum grau de instrução completo,
2 - primeiro grau completo e
3 - segundo grau co mpleto.
Resultados observados em cada família:
3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3
3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3
Distribuição de Freqüências
Grau de instrução (Conj. Resid. Monte Verde).
Grau de Instrução Freqüência Percentagem
nenhum
6
15,0
primeiro grau
11
27,5
segundo grau
23
57,5
Total
40
100,0
Gráfico de Barras
Grau de Instrução do Chefe da Casa
segundo grau
primeiro grau
nenhum
0
4
8
12
16
número de famílias
20
24
Gráfico de Barras
Grau de Instrução do Chefe da Casa
segundo grau
primeiro grau
nenhum
4
8
12
16
20
número de famílias
24
Gráfico em colunas
Grau de instrução do chefe da casa
número de famílias
25
20
15
10
5
0
nenhum
primeiro grau
segundo grau
Gráfico de Setores
(Proporções)
Grau de Instrução do Chefe da Casa
nenhum (15,0 %)
segundo grau
(57,5 %)
primeiro grau
(27,5 %)
Gráfico de Setores Multivariado
Não
Moderada; 33%
Moderada; 50%
Pouca; 50%
Pouca; 100%
Pouca; 10%
Muita; 29%
Moderada; 100%
Pouca; 11%
Pouca; 13%
Pouca;
29%
Muita;
30%
Pouca; 17%
Muita; 33%
Sim
Dor incomoda durante trabalho
Pouca; 67%
Moderada; 16%
Moderada; 25%
Muita; 63%
Muita; 74%
Moderada; 50%
Moderada; 60%
Moderada; 43%
Uma vez
Duas vezes
Três vezes
Quatro vezes
Freqüência dor durante semana
Todos os dias
Gráfico de Barras Multivariado
Exemplo (com variável discreta)

Numa rede de computadores, a quantidade de
máquinas que costumam estar ligadas, por dia
20 26 21 21 20 21 23 22 24 22
22 22 23 23 23 22 23 22 24 21
Distribuição de Freqüências
Máquinas Freqüência
em uso
(absoluta) Proporção (%)
0,10 (10%)
20
2
0,20 (20%)
21
4
0,30 (30%)
22
6
0,25 (25%)
23
5
0,10 (10%)
24
2
0,00 (0,0%)
25
0
0,05 ( 5%)
26
1
1,00 (100%)
Total
20
Gráfico de colunas
Exemplo (com variável contínua)
Tempo (em segundos) para carga de um aplicativo
num sistema compartilhado (50 observações):
5,2
5,5
8,9
8,2
5,7
4,9
6,5
6,4
6,2
7,3
7,1
6,2
5,0
5,9
5,7
4,9
5,4
4,9
4,9
5,7
8,3
5,7
4,8
5,0
5,1
6,3
7,0 5,4 4,8 9,1
6,3 5,1 8,4 6,2
5,6 6,8 5,0 6,7
8,2 9,9 5,4 5,6
6,0 4,7 18,1 5,3
6,0 6,8 7,3 6,9
DADOS:
5,2
5,5
8,9
8,2
5,7
4,9
6,5
6,4
6,2
7,3
7,1
6,2
5,0
5,9
5,7
4,9
5,4
4,9
4,9
5,7
4,7
4
5 6
8,3
5,7
4,8
5,0
5,1
6,3
7,0 5,4 4,8 9,1
6,3 5,1 8,4 6,2
5,6 6,8 5,0 6,7
8,2 9,9 5,4 5,6
6,0 4,7 18,1 5,3
6,0 6,8 7,3 6,9
18,1
7 ...
19
Histograma do tempo (em segundos) para
carga de um aplicativo num sistema
compartilhado (50 observações).
2
0
1
8
1
6
1
4
1
2
númerodeobservações
1
0
8
6
4
2
0
4
6
8
1
0
1
2
te
m
p
o
1
4
1
6
1
8
Conjunto de dados: são 92 observações relativas à preços de automóveis.
X Chart; v ariable: Y 2
Histogram of Observations
X: 19,632 (19,632); Sigma: 0,0000 (9,6590); n: 1,
70
• Verificar a
variabilidade
60
50
48,609
• outliers
40
30
OUTLIERS:
20
19,632
10
0
X  2S
OU
-9,3455
-10
-20
0
10 20 30 40 50
5 15 25 35 45 55
10
20
30
40
50
60
70
80
90
X  3S
Conjunto de dados: preços de fechamento de ações da telebrás
X Chart; v ariable: Telebras
Histogram of Observations
X: 25,725 (25,725); Sigma: 0,0000 (4,5080); n: 1,
38
36
34,741
34
X  2 S 
32
Série
temporal
30
28
26
25,725
24
22
20
18
16,709
16
14
12
0
4
2
8
6
12
10
10
14
20
30
40
50
X  2 S 
Medidas Descritivas

Existem medidas quantitativas que servem
para descrever, resumidamente, características
das distribuições.

As mais utilizadas são a média e o desvio
padrão.
Média (X)

A média aritmética simples ( X ) é a soma dos
valores dividida pelo número de observações.
X=
X
n
Exemplo

Deseja-se estudar o número de falhas no envio
de mensagens, considerando três algoritmos
diferentes para o envio dos pacotes:
Algoritmo A
Algoritmo B
Algoritmo C
(8 observações)
(8 observações)
(7 observações)
Exemplo

Número de falhas a cada 10.000 mensagens
enviadas.
A:
20 21 21 22 22 23 23 24
B:
16 18 20 22 22 24 26 28
C:
15 22 23 23 23 24 24
Comparação dos três
algoritmos pela média
algoritmo
falhas
média
A
20 21 21 22 22 23 23 24
22
B
16 18 20 22 22 24 26 28
22
C
15 22 23 23 23 24 24
22
Diagramas de Pontos
Algoritmo
A
B
C
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
Média Geométrica
A média geométrica é apropriada para médias de taxas ou números
índices. Por exemplo: 1) estimar a taxa média de retorno após três anos de
investimento, sendo 10% no primeiro, 50% no segundo e 30% no terceiro
ano;
xG  n x1.x2 . ... .xn
xG  3 0 ,10.0 ,50.0 ,30  0 ,247  24,7%
Exemplo
Média de relações:
Empresa
Capital
Dívida
A
B
2500
1000
1000
2000
Relação média entre capital e dívida é:
xG  2 ,5.0 ,5  1,118
Relação
Capital/dívida
2,5
0,5
Exemplo
Média de taxas de variação:
Um investidor aplicou em 2001, R$ 500,00. Após um ano o saldo é de R$
550,00. Reaplicou esta quantia e, ao final de mais um ano, o montante
era de R$ 590,00. Qual a taxa média de aumento?
Período
2001-2002
2002/2003
Taxa
550/500=1,1000
590/550=1,0727
xG  1,1000.1,0727  1,0863
Medidas Robustas de Locação
 Média “Winsorized”: a média “winsorized” compensa a presença de
valores extremos no cálculo da média, atribuindo a estes, o valor de um
determinado percentil da distribuição. Por exemplo: estimando a média
“winsorized” de 95%, os 2,5% dos valores menores corresponderão ao
2,5 percentil da distribuição, enquanto os 2,5% dos valores maiores
receberão o valor do 97,5 percentil da distribuição.
 Média aparada (Trimmed): a média aparada é calculada excluindo-se
uma dada percentagem dos valores mais baixos e mais altos e, então,
fazer a média com os valores restantes. Por exemplo, excluindo os 2,5%
dos valores inferiores e superiores e usando os dados remanescentes,
temos a média aparada de 5%. A média aparada não é afetada por
valores discrepantes (outliers) como a média aritmética. A média aparada
é usada, por exemplo, em classificação em esportes para minimizar as
classificações extremas, possivelmente causadas por julgamentos
tendenciosos.
Exemplo
Medidas da variável IDADE de funcionários de um empresa:
Média “winzored:”
Média aparada:
Como medir a dispersão?
Exemplo: A
20
( 20 21 21 22 22 23 23 24 )
21
22
23
24
distância (desvio) em relação à média
Desvios
Valores
X
20 21 21 22 22 23 23 24
Média
X
22
Desvios
(X - X) -2 -1 -1 0 0 1 1 2
Desvios
Desvios:
20
21
22
23
24
-2
-1
0
1
2
Soma = 0
Desvios Quadráticos
Soma
Valores
X
Média
X
Desvios
20 21 21 22 22 23 23 24
22
X - X -2 -1 -1 0 0 1 1 2
Desvios
(X-X)
quadráticos
2
4 1
1 0 0 1 1 4
176
0
12
Variância

2
(S )
A variância (S2) é uma média dos desvios
quadráticos. Por conveniência, usa-se (n-1) no
denominador ao invés de n.
X  X 


2
S
2
n 1
Exemplo

No exemplo apresentado (algoritmo A), a
variância é:
S2
12
= 1,71
=
7
Desvio Padrão (S)

O desvio padrão (S) é a raiz quadrada da
variância.
S = S2
Exemplo

No exemplo apresentado (algoritmo A), o
desvio padrão é:
S = 1,71 = 1,31
Comparação dos três algoritmos
pela média e desvio padrão
Algoritmo
falhas
X
S
A
20 21 21 22 22 23 23 24
22
1,31
B
16 18 20 22 22 24 26 28
22
4,00
C
15 22 23 23 23 24 24
22
3,16
Diagramas de pontos e valores de S
Algoritmo A
(S = 1,31)
Algoritmo B
(S = 4,00)
Algoritmo C
(S = 3,16)
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
TABELA
Medidas descritivas das notas finais
dos alunos de três turmas
Turma
Número de
alunos
Média
Desvio
padrão
A
B
C
20
40
30
6,0
8,0
9,0
3,3
1,5
2,6
Medida relativa
de dispersão
 Coeficiente
de variação:
desvio padrão
média
Medida relativa
de dispersão - Exemplo
X1:
1
2
3
X2:
100 101 102
X3:
100 200 300
média = 2
desvio padrão = 1
coeficiente de variação = 0,5
média = 101
desvio padrão = 1
coeficiente de variação = 0,01
média = 200
desvio padrão = 100
coeficiente de variação = 0,5
Medidas baseadas na
ordenação dos dados
25%
25%
25%
25%
QI
Quartil
inferior
Md
mediana
QS
Quartil
superior
Cálculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
n = 10;
(n + 1) / 2 = 5,5
0 1 2 3 4
5 6 7 8 9
Md = 4,5
Cálculo dos quartis
0 1 2 3 4
Ei = 0
5 6 7 8 9
Md = 4,5
Qi = 2
Es = 9
Qs = 7
Exercício:
Cálculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
n = 11;
(n + 1) / 2 = 6
0 1 2 3 4 5 6 7 8 9 100
Md = 5
Exercício:
Cálculo dos quartis
0 1 2 3 4 5 6 7 8 9 100
Ei = 0
Md = 5
Qi = 2,5
Es = 100
Qs = 7,5
Medida de dispersão:
Distância interquartílica
O desvio inter-quartílico é uma medida robusta de dispersão. Ele é
calculado por:
Q3  Q1
Onde Q3 é o percentil 75, também chamado de quartil superior, e o Q1 é o
percentil 25, também chamado de quartil inferior. Ele é uma boa medida
de dispersão para distribuições assimétricas. Para dados normalmente
distribuídos, o desvio inter-quartílico é aproximadamente igual a 1,35
vezes o desvio padrão.
Medidas da variável IDADE de funcionários de um empresa, setor tecidos:
Distribuição da variável IDADE de funcionários de um empresa,seção:
tecidos:
Média e mediana
50% dos valores
0
10
50% dos valores
20
M d = 22,5
30
X = 24,7
40
50
60
70
Média e mediana
(a) distribuição
simétrica
50% 50%
(b) distribuição
assimétrica
50%
50%
média = mediana
mediana
média
Diagrama em caixas (Box Plot)
25%
25%
25% 25%
25%
25%
25%
25%

Diagrama em caixas
28
Renda
23
familiar
(sal. mín.)
18
13
8
3
Monte
Verde
Encosta
do Morro
outlier
Cálculo dos outliers:
QI  1,5QS  QI 
QS  1,5QS  QI 
Onde QI é o quartil inferior ou primeiro quartil da distribuição; QS é o quartil
superior ou terceiro quartil da distribuição. O valor 1,5 pode ser alterado.
Gráfico Normal de Probabilidade
(Normal Probability Plot)
Normal P-Plot: Preços de automóveis (Y2)
• Verificar assimetria
(assimétrico à direita)
5
Expected Normal Value
4
• Normalidade da
distribuição
3
2
• Presença de outliers
1
• Se há falta de
ajuste, e os dados
apresentar um
padrão (forma de S),
então a variável deve
ser transformada
(log).
0
-1
-2
-3
0
10
20
30
40
50
Valores de preços de automóveis
60
70
Gráfico Normal de Probabilidades:
Os valores de zj para o j-ésimo valor (rank, posto) de uma variável com N
observações, é calculado por:
zj = F-1 [(3*j-1)/(3*N+1)]
Onde F-1 converte os valores de probabilidade, p, em valores de z.
Exemplo: para o arquivo de dados de automóveis, onde N=92
observações.
z1  F 1 3 * j  1 / 3 * N  1
z1  F 1 3 *1  1 / 3 * 92  1  F 1 (0,0072)  2,446
Erro Padrão e Intervalos de Confiança
 Erro padrão: erro padrão é o desvio padrão da distribuição amostral
de uma dada estatística. Erro padrão mostra a quantidade de flutuação
amostral que existe nas estatísticas estimadas em repetidas amostragens.
O erro padrão de uma estatística depende do tamanho da amostra. Em
geral, quanto maior o tamanho da amostra, menor é o erro padrão.
 Intervalo de confiança: o intervalo de confiança fornece uma
faixa(amplitude) de valores, dentro da qual esperamos que o valor de um
parâmetro desconhecido esteja incluído. Se amostras independentes são
tomadas repetidamente de uma mesma população, e o intervalo de
confiança é calculado para cada amostra, então, uma alta percentagem
dos intervalos irão incluir o parâmetro desconhecido. A amplitude do
intervalo fornece uma idéia sobre a incerteza da estimativa do parâmetro.
Um intervalo com grande amplitude indica que mais dados devem ser
coletados antes de se fazer inferências sobre o parâmetro.
Erro padrão e intervalo de confiança para uma média
S
SX 
n
I .C. ;   : X  tn 1; / 2 
S
n
Erro padrão e intervalo de confiança de 95% da variável IDADE de
funcionários de um empresa, setor tecidos:
t=2,015368
Transformações
Vários procedimentos estatísticos e as redes neurais, são baseados
na suposição de que os dados provêm de uma distribuição normal ou,
então, mais ou menos simétrica (redes neurais funcionam melhor para
distribuições simétricas). Porém, em muitas situações práticas, a
distribuição dos dados da amostra é assimétrica e pode conter valores
discrepantes. Pode-se realizar uma transformação nos dados, de
forma a se obter uma distribuição mais simétrica.
Uma família de transformação freqüentemente utilizada é:
 x , se p 0
 p 
x  ln (x), sep  0
  x p , se p 0

p
Na prática, o que se faz é experimentar uma série de valores p, na
seqüência:
..., -3,-2,-1,-1/2,-1/3,-1/4,0,1/4,1/3,1/2,1,2,3,...
e para cada valor de p obtemos gráficos apropriados (histogramas,
box plot, etc.) para os dados originais e transformados, de modo a
escolhermos o valor mais adequado de p.
Para distribuições assimétricas à direita, a transformação acima com
0<p<1 é apropriada, pois valores grandes de x decrescem mais,
relativamente a valores pequenos. Para distribuições assimétricas à
esquerda, tome p>1.
Exemplo: consideremos os dados da variável idade dos funcionários
de uma empresa, cujo histograma fica:
Distribuição
assimétrica à
direita, tentar
valores de p
entre 0 e 1.
Vamos considerar os seguintes valores de p: 0 (transformação logarítmica), ¼,
1/3(transformação raíz cúbica), ½ (transformação raíz quadrada)
Análise de Associação
Geralmente estamos interessados em analisar o comportamento conjunto
de duas ou mais variáveis. Os dados aparecem em forma de matriz, onde
nas colunas temos as variáveis (campos) e nas linhas as observações
(registros).
Observações
1
2
.
I
.
n
X1
x11
x21
.
xi1
.
xn1
X2
x12
x22
.
xi2
.
xn2
Variáveis
.
Xj
.
x1j
.
x2j
.
.
.
xjj
.
.
.
xnj
.
.
.
.
.
.
.
Xp
x1p
x2p
.
xip
.
xnp
Objetivo: analisar as relações entre as colunas (variáveis), ou
algumas vezes entre linhas (observações). O estudo das distribuições
conjuntas é um poderoso instrumento para o entendimento do
comportamento dos dados.
Estas relações ou associações podem ser detectadas por meio de
representações gráficas e medidas numéricas.
Variáveis Qualitativas
Exemplo: desejamos analisar o comportamento conjunto das variáveis
sexo do funcionário e setor em que trabalha. A distribuição de freqüência
conjunta é apresentada na tabela a seguir.
Setor de atuação
Freqüências
1 = Tecidos
Porcentagem
Count
2 = Tapetes, Cristais
Column Percent
Count
3 = Lustres, Ferramentas,
Brinquedos
Column Percent
Count
4 = Presentes, Calçados,
Confecção
Column Percent
Count
All Grps
Feminino Masculino Total setores
32
13
45
47,76%
39,39%
45%
1
4
5
1,49%
12,12%
5%
8
10
18
11,94%
30,30%
18%
26
6
32
38,81%
18,18%
32%
67
33
100
Existem três possibilidades de expressarmos as proporções das caselas:
• em relação ao total geral
• em relação ao total de cada linha
• em relação ao total de cada coluna
A escolha é feita de acordo
com os Objetivos do trabalho
Interpretação (foi fixado o total de colunas em 100%): podemos dizer
que, entre os funcionários do sexo feminino, 47,76% trabalham as
seção de tecidos e 38,81% trabalham na seção de presentes, calçados
e confecções e, apenas 1,49% trabalham na seção de tapetes e
cristais. Entre os funcionários do sexo masculino, 39,39% trabalham na
seção de tecidos e 30,30% trabalham na seção de lustres, ferramentas
e brinquedos e, 18,18% trabalham na seção de presentes, calçados e
confecções.
1=feminino 2= masculino
Interpretação: parece que estas duas variáveis estão pouco associadas.
Medida de associação: Coeficiente de Contingência
2
C
2 n
Onde:
r
s
  
2
i 1 j 1
n
ij

* 2
ij
n
*
ij
n
nij= número de elementos observados pertencentes à i-ésima categoria de X e jésima categoria de Y; r = número de linhas e s = no. de colunas da tabela.
nij*= número de elementos esperados pertencentes à i-ésima categoria de X e jésima categoria de Y.
O valor de C está entre 0 e 1 (porém, para alcançar o valor 1 precisa de uma
correção). O valor de 2 varia de 0 até o infinito.
Freqüências esperadas considerando as variáveis como sendo não
associadas
Cálculo da freqüência
esperada
n 
*
ij
ni . * n. j
nij
  12,02
2
Este valor apresenta uma
grandeza considerável.
12,02
C
 0,33
12,02  100
O valor de C deveria variar de 0 a 1. Porém isso não acontece. Para evitar
este inconveniente, costuma-se fazer uma correção no valor de C, o qual
fica:
C
C 
t  1 / t
*
Onde t é o mínimo entre o r e o s
0,33
C 
 0,47
2  1 / 2
*
Interpretação: podemos considerar que as variáveis estão medianamente
associadas.
Variáveis Quantitativas
Gráfico de dispersão: indicado para estudar a associação entre duas
variáveis quantitativas.
Exemplo: consideremos os dados da variável X:idade e Y: tempo de
profissão do funcionário, do setor de tecidos. O gráfico de dispersão
está na figura a seguir.
Vemos que,
parece haver
uma
associação
direta
(positiva)
entre idade e
tempo de
serviço. A
medida que
aumenta a
idade,
aumenta o
tempo como
balconista.
Medida de correlação: Coeficiente de Correlação
n
r
 x
i
i 1
n
 x
i 1
i
 x  yi  y 
 x
2
n
 y
i 1
i
 y
2
O coeficiente de correlação varia na faixa de:
-1 r  1
Para o exemplo, o coeficiente de correlação vale:
R=0,66
Portanto, as duas variáveis estão correlacionadas. Esta correlação é de
grau mediano para forte. Cálculo no próximo slide.
Idade (X)
Tempo
(Y)
(X-média)
(Y-média)
(X-média)2
(Y-média)2
(X-média)(Ymédia)
51
43
32
25
7
8
18,31
10,31
18,31
16,4
-1,6
16,4
335,30
106,32
335,30
268,96
2,56
268,96
300,30
-16,50
300,30
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
32
22
8
15
2
0,31
-0,69
-10,69
-0,6
6,4
-6,6
0,10
0,47
114,25
0,36
40,96
43,56
-0,19
-4,41
70,55
SOMAS
0
0
3501,6444
2218,8
1852,4
Matriz de correlação
Variáveis Quantitativas e Qualitativas
Esta análise pode ser conduzida por meio de medidas descritivas (média,
mediana, desvio padrão , desvio inter-quartílico), polígonos de freqüências
múltiplo, box-plot.
Exemplo: consideremos os dados da variável qualitativa:tipo de carro
e a variável quantitativa Y: preço. A representação gráfica, através de
box plot múltiplo está na figura a seguir.
O gráfico sugere
uma dependência
entre tipo de carro
e preço dos
automóveis. Os
preços aumentam
do tamanho
pequeno (small),
após vem os
compactos e
esportivos e
finalmente os
grandes, as vans
e médios.
Medida de associação: Coeficiente de determinação
Sem usar a informação da variável categorizada(tipo de carro), a
variância calculada para a variável quantitativa para todos os dados
mede a dispersão dos dados globalmente. Se a variância dentro de
cada categoria for pequena e menor do que a global, significa que a
variável qualitativa melhora a capacidade de previsão da quantitativa
e, portanto, existe uma relação entre as duas variáveis.
Tipo de
carro
Midsize
Van
Compact
Sport
Small
Large
Total
n
Dp(Preço)
x
22
9
16
14
20
11
92
27,22
19,10
18,21
19,39
10,26
24,30
19,63
12,26
1,89
6,69
7,97
1,96
6,34
9,64
Var(Preço)
150,43
3,53
44,71
63,60
3,82
40,16
92,93
Observe na tabela que temos uma categoria (Midsize) com variância
maior do que a global e cinco categorias com variância menor do que a
global. Parece que a variável qualitativa (tipo de carro) melhora a
capacidade preditiva da variável quantitativa (preço).
 Cálculo da variância entre as categorias da variável qualitativa
k
ME var 
 n var
i 1
i

k
i
n
i 1 i
Onde k é o número de categorias (no nosso exemplo k=6) e vari denota
a variância dentro da categoria i, onde i=1,2,...,k.
No exemplo, temos:
k
 n var
22150,43  93,53  ... 1140,16
MEvar 

 59,404
k
22  9  ... 11
i1 ni
i 1
i
i
 Podemos definir o grau de associação através do cálculo do
coeficiente de determinação, dado por:
R2 
var(Preço )  ME(var)
ME(var)
 1
var(Preço )
var(Preço )
O coeficiente de determinação varia na faixa de:
0  R2  1
Exemplo: o coeficiente de determinação para o exemplo vale:
var(Preço )  ME(var)
ME(var)
59,40
R 
 1
 1
 0,3608
var(Preço )
var(Preço )
92,93
2
Podemos dizer que 36,08% da variação dos preços dos automóveis é
explicada pelo tipo de carro.
Exemplo: vamos considerar as variáveis: Eficiência no consumo (MPG),
Origem e os Preços. Vamos separar os preços por eficiência e origem.
Observamos que
para eficiência
alta, os preços
são similares,
tanto para carros
domésticos
como para
estrangeiros.
Para eficiência
baixa e origem
doméstica, têmse os carros com
os maiores
preços
(porcentagem
baixa, apenas
2%).
Diagrama de dispersão tridimensional
Existem diversos softwares especializados em visualização de
dados no mercado, com enfâse em data mining, entre eles:
 MineSet
 InfoZoon
Download

Fundamentos de Estatística e de Métodos Probabilísticos Aula 2