Capítulo 7 Conhecendo os Dados Técnicas para extrair informações e gerar conhecimento de conjuntos de dados Distrib u ição d as id ad es d o s fu n cio n ário s 14 número de funcionários 12 10 8 6 4 2 0 10 20 30 40 idade 50 60 70 Conhecendo os Dados O objetivo da análise exploratória de dados é examinar a estrutura subjacente dos dados e aprender sobre os relacionamentos sistemáticos entre muitas variáveis. A análise exploratória de dados inclui um conjunto de ferramentas gráficas e descritivas, para explorar os dados, como pré-requisito para uma análise de dados mais formal (Predição e Testes de Hipóteses), e como parte integral formal da construção de modelos. A AEA facilita a descoberta de conhecimentos não esperados, como também ajuda a confirmar o esperado. Como uma importante etapa em Data Mining, a AED emprega técnicas estatísticas descritivas e gráficas para estudar um conjunto de dados, detectando outliers e anomalias, e testando as suposições do modelo. A AED é um importante pré-requisito para se alcançar o sucesso em qualquer projeto de data mining. Distribuições de Freqüências organização dos dados de acordo com as ocorrências dos diferentes resultados observados. – Pode ser apresentada: em tabela ou em gráfico; – com freqüências absolutas, relativas ou porcentagens. Exemplo (com variável qualitativa) Grau de instrução do chefe da casa, numa amostra de 40 famílias do Conj. Resid. Monte Verde, Florianópolis, SC, 1988. Códigos: 1 - nenhum grau de instrução completo, 2 - primeiro grau completo e 3 - segundo grau co mpleto. Resultados observados em cada família: 3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3 3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3 Distribuição de Freqüências Grau de instrução (Conj. Resid. Monte Verde). Grau de Instrução Freqüência Percentagem nenhum 6 15,0 primeiro grau 11 27,5 segundo grau 23 57,5 Total 40 100,0 Gráfico de Barras Grau de Instrução do Chefe da Casa segundo grau primeiro grau nenhum 0 4 8 12 16 número de famílias 20 24 Gráfico de Barras Grau de Instrução do Chefe da Casa segundo grau primeiro grau nenhum 4 8 12 16 20 número de famílias 24 Gráfico em colunas Grau de instrução do chefe da casa número de famílias 25 20 15 10 5 0 nenhum primeiro grau segundo grau Gráfico de Setores (Proporções) Grau de Instrução do Chefe da Casa nenhum (15,0 %) segundo grau (57,5 %) primeiro grau (27,5 %) Gráfico de Setores Multivariado Não Moderada; 33% Moderada; 50% Pouca; 50% Pouca; 100% Pouca; 10% Muita; 29% Moderada; 100% Pouca; 11% Pouca; 13% Pouca; 29% Muita; 30% Pouca; 17% Muita; 33% Sim Dor incomoda durante trabalho Pouca; 67% Moderada; 16% Moderada; 25% Muita; 63% Muita; 74% Moderada; 50% Moderada; 60% Moderada; 43% Uma vez Duas vezes Três vezes Quatro vezes Freqüência dor durante semana Todos os dias Gráfico de Barras Multivariado Exemplo (com variável discreta) Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia 20 26 21 21 20 21 23 22 24 22 22 22 23 23 23 22 23 22 24 21 Distribuição de Freqüências Máquinas Freqüência em uso (absoluta) Proporção (%) 0,10 (10%) 20 2 0,20 (20%) 21 4 0,30 (30%) 22 6 0,25 (25%) 23 5 0,10 (10%) 24 2 0,00 (0,0%) 25 0 0,05 ( 5%) 26 1 1,00 (100%) Total 20 Gráfico de colunas Exemplo (com variável contínua) Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações): 5,2 5,5 8,9 8,2 5,7 4,9 6,5 6,4 6,2 7,3 7,1 6,2 5,0 5,9 5,7 4,9 5,4 4,9 4,9 5,7 8,3 5,7 4,8 5,0 5,1 6,3 7,0 5,4 4,8 9,1 6,3 5,1 8,4 6,2 5,6 6,8 5,0 6,7 8,2 9,9 5,4 5,6 6,0 4,7 18,1 5,3 6,0 6,8 7,3 6,9 DADOS: 5,2 5,5 8,9 8,2 5,7 4,9 6,5 6,4 6,2 7,3 7,1 6,2 5,0 5,9 5,7 4,9 5,4 4,9 4,9 5,7 4,7 4 5 6 8,3 5,7 4,8 5,0 5,1 6,3 7,0 5,4 4,8 9,1 6,3 5,1 8,4 6,2 5,6 6,8 5,0 6,7 8,2 9,9 5,4 5,6 6,0 4,7 18,1 5,3 6,0 6,8 7,3 6,9 18,1 7 ... 19 Histograma do tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações). 2 0 1 8 1 6 1 4 1 2 númerodeobservações 1 0 8 6 4 2 0 4 6 8 1 0 1 2 te m p o 1 4 1 6 1 8 Conjunto de dados: são 92 observações relativas à preços de automóveis. X Chart; v ariable: Y 2 Histogram of Observations X: 19,632 (19,632); Sigma: 0,0000 (9,6590); n: 1, 70 • Verificar a variabilidade 60 50 48,609 • outliers 40 30 OUTLIERS: 20 19,632 10 0 X 2S OU -9,3455 -10 -20 0 10 20 30 40 50 5 15 25 35 45 55 10 20 30 40 50 60 70 80 90 X 3S Conjunto de dados: preços de fechamento de ações da telebrás X Chart; v ariable: Telebras Histogram of Observations X: 25,725 (25,725); Sigma: 0,0000 (4,5080); n: 1, 38 36 34,741 34 X 2 S 32 Série temporal 30 28 26 25,725 24 22 20 18 16,709 16 14 12 0 4 2 8 6 12 10 10 14 20 30 40 50 X 2 S Medidas Descritivas Existem medidas quantitativas que servem para descrever, resumidamente, características das distribuições. As mais utilizadas são a média e o desvio padrão. Média (X) A média aritmética simples ( X ) é a soma dos valores dividida pelo número de observações. X= X n Exemplo Deseja-se estudar o número de falhas no envio de mensagens, considerando três algoritmos diferentes para o envio dos pacotes: Algoritmo A Algoritmo B Algoritmo C (8 observações) (8 observações) (7 observações) Exemplo Número de falhas a cada 10.000 mensagens enviadas. A: 20 21 21 22 22 23 23 24 B: 16 18 20 22 22 24 26 28 C: 15 22 23 23 23 24 24 Comparação dos três algoritmos pela média algoritmo falhas média A 20 21 21 22 22 23 23 24 22 B 16 18 20 22 22 24 26 28 22 C 15 22 23 23 23 24 24 22 Diagramas de Pontos Algoritmo A B C 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas Média Geométrica A média geométrica é apropriada para médias de taxas ou números índices. Por exemplo: 1) estimar a taxa média de retorno após três anos de investimento, sendo 10% no primeiro, 50% no segundo e 30% no terceiro ano; xG n x1.x2 . ... .xn xG 3 0 ,10.0 ,50.0 ,30 0 ,247 24,7% Exemplo Média de relações: Empresa Capital Dívida A B 2500 1000 1000 2000 Relação média entre capital e dívida é: xG 2 ,5.0 ,5 1,118 Relação Capital/dívida 2,5 0,5 Exemplo Média de taxas de variação: Um investidor aplicou em 2001, R$ 500,00. Após um ano o saldo é de R$ 550,00. Reaplicou esta quantia e, ao final de mais um ano, o montante era de R$ 590,00. Qual a taxa média de aumento? Período 2001-2002 2002/2003 Taxa 550/500=1,1000 590/550=1,0727 xG 1,1000.1,0727 1,0863 Medidas Robustas de Locação Média “Winsorized”: a média “winsorized” compensa a presença de valores extremos no cálculo da média, atribuindo a estes, o valor de um determinado percentil da distribuição. Por exemplo: estimando a média “winsorized” de 95%, os 2,5% dos valores menores corresponderão ao 2,5 percentil da distribuição, enquanto os 2,5% dos valores maiores receberão o valor do 97,5 percentil da distribuição. Média aparada (Trimmed): a média aparada é calculada excluindo-se uma dada percentagem dos valores mais baixos e mais altos e, então, fazer a média com os valores restantes. Por exemplo, excluindo os 2,5% dos valores inferiores e superiores e usando os dados remanescentes, temos a média aparada de 5%. A média aparada não é afetada por valores discrepantes (outliers) como a média aritmética. A média aparada é usada, por exemplo, em classificação em esportes para minimizar as classificações extremas, possivelmente causadas por julgamentos tendenciosos. Exemplo Medidas da variável IDADE de funcionários de um empresa: Média “winzored:” Média aparada: Como medir a dispersão? Exemplo: A 20 ( 20 21 21 22 22 23 23 24 ) 21 22 23 24 distância (desvio) em relação à média Desvios Valores X 20 21 21 22 22 23 23 24 Média X 22 Desvios (X - X) -2 -1 -1 0 0 1 1 2 Desvios Desvios: 20 21 22 23 24 -2 -1 0 1 2 Soma = 0 Desvios Quadráticos Soma Valores X Média X Desvios 20 21 21 22 22 23 23 24 22 X - X -2 -1 -1 0 0 1 1 2 Desvios (X-X) quadráticos 2 4 1 1 0 0 1 1 4 176 0 12 Variância 2 (S ) A variância (S2) é uma média dos desvios quadráticos. Por conveniência, usa-se (n-1) no denominador ao invés de n. X X 2 S 2 n 1 Exemplo No exemplo apresentado (algoritmo A), a variância é: S2 12 = 1,71 = 7 Desvio Padrão (S) O desvio padrão (S) é a raiz quadrada da variância. S = S2 Exemplo No exemplo apresentado (algoritmo A), o desvio padrão é: S = 1,71 = 1,31 Comparação dos três algoritmos pela média e desvio padrão Algoritmo falhas X S A 20 21 21 22 22 23 23 24 22 1,31 B 16 18 20 22 22 24 26 28 22 4,00 C 15 22 23 23 23 24 24 22 3,16 Diagramas de pontos e valores de S Algoritmo A (S = 1,31) Algoritmo B (S = 4,00) Algoritmo C (S = 3,16) 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas TABELA Medidas descritivas das notas finais dos alunos de três turmas Turma Número de alunos Média Desvio padrão A B C 20 40 30 6,0 8,0 9,0 3,3 1,5 2,6 Medida relativa de dispersão Coeficiente de variação: desvio padrão média Medida relativa de dispersão - Exemplo X1: 1 2 3 X2: 100 101 102 X3: 100 200 300 média = 2 desvio padrão = 1 coeficiente de variação = 0,5 média = 101 desvio padrão = 1 coeficiente de variação = 0,01 média = 200 desvio padrão = 100 coeficiente de variação = 0,5 Medidas baseadas na ordenação dos dados 25% 25% 25% 25% QI Quartil inferior Md mediana QS Quartil superior Cálculo da mediana Dados: {2, 0, 5, 7, 9, 1, 3, 4, 6, 8} n = 10; (n + 1) / 2 = 5,5 0 1 2 3 4 5 6 7 8 9 Md = 4,5 Cálculo dos quartis 0 1 2 3 4 Ei = 0 5 6 7 8 9 Md = 4,5 Qi = 2 Es = 9 Qs = 7 Exercício: Cálculo da mediana Dados: {2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100} n = 11; (n + 1) / 2 = 6 0 1 2 3 4 5 6 7 8 9 100 Md = 5 Exercício: Cálculo dos quartis 0 1 2 3 4 5 6 7 8 9 100 Ei = 0 Md = 5 Qi = 2,5 Es = 100 Qs = 7,5 Medida de dispersão: Distância interquartílica O desvio inter-quartílico é uma medida robusta de dispersão. Ele é calculado por: Q3 Q1 Onde Q3 é o percentil 75, também chamado de quartil superior, e o Q1 é o percentil 25, também chamado de quartil inferior. Ele é uma boa medida de dispersão para distribuições assimétricas. Para dados normalmente distribuídos, o desvio inter-quartílico é aproximadamente igual a 1,35 vezes o desvio padrão. Medidas da variável IDADE de funcionários de um empresa, setor tecidos: Distribuição da variável IDADE de funcionários de um empresa,seção: tecidos: Média e mediana 50% dos valores 0 10 50% dos valores 20 M d = 22,5 30 X = 24,7 40 50 60 70 Média e mediana (a) distribuição simétrica 50% 50% (b) distribuição assimétrica 50% 50% média = mediana mediana média Diagrama em caixas (Box Plot) 25% 25% 25% 25% 25% 25% 25% 25% Diagrama em caixas 28 Renda 23 familiar (sal. mín.) 18 13 8 3 Monte Verde Encosta do Morro outlier Cálculo dos outliers: QI 1,5QS QI QS 1,5QS QI Onde QI é o quartil inferior ou primeiro quartil da distribuição; QS é o quartil superior ou terceiro quartil da distribuição. O valor 1,5 pode ser alterado. Gráfico Normal de Probabilidade (Normal Probability Plot) Normal P-Plot: Preços de automóveis (Y2) • Verificar assimetria (assimétrico à direita) 5 Expected Normal Value 4 • Normalidade da distribuição 3 2 • Presença de outliers 1 • Se há falta de ajuste, e os dados apresentar um padrão (forma de S), então a variável deve ser transformada (log). 0 -1 -2 -3 0 10 20 30 40 50 Valores de preços de automóveis 60 70 Gráfico Normal de Probabilidades: Os valores de zj para o j-ésimo valor (rank, posto) de uma variável com N observações, é calculado por: zj = F-1 [(3*j-1)/(3*N+1)] Onde F-1 converte os valores de probabilidade, p, em valores de z. Exemplo: para o arquivo de dados de automóveis, onde N=92 observações. z1 F 1 3 * j 1 / 3 * N 1 z1 F 1 3 *1 1 / 3 * 92 1 F 1 (0,0072) 2,446 Erro Padrão e Intervalos de Confiança Erro padrão: erro padrão é o desvio padrão da distribuição amostral de uma dada estatística. Erro padrão mostra a quantidade de flutuação amostral que existe nas estatísticas estimadas em repetidas amostragens. O erro padrão de uma estatística depende do tamanho da amostra. Em geral, quanto maior o tamanho da amostra, menor é o erro padrão. Intervalo de confiança: o intervalo de confiança fornece uma faixa(amplitude) de valores, dentro da qual esperamos que o valor de um parâmetro desconhecido esteja incluído. Se amostras independentes são tomadas repetidamente de uma mesma população, e o intervalo de confiança é calculado para cada amostra, então, uma alta percentagem dos intervalos irão incluir o parâmetro desconhecido. A amplitude do intervalo fornece uma idéia sobre a incerteza da estimativa do parâmetro. Um intervalo com grande amplitude indica que mais dados devem ser coletados antes de se fazer inferências sobre o parâmetro. Erro padrão e intervalo de confiança para uma média S SX n I .C. ; : X tn 1; / 2 S n Erro padrão e intervalo de confiança de 95% da variável IDADE de funcionários de um empresa, setor tecidos: t=2,015368 Transformações Vários procedimentos estatísticos e as redes neurais, são baseados na suposição de que os dados provêm de uma distribuição normal ou, então, mais ou menos simétrica (redes neurais funcionam melhor para distribuições simétricas). Porém, em muitas situações práticas, a distribuição dos dados da amostra é assimétrica e pode conter valores discrepantes. Pode-se realizar uma transformação nos dados, de forma a se obter uma distribuição mais simétrica. Uma família de transformação freqüentemente utilizada é: x , se p 0 p x ln (x), sep 0 x p , se p 0 p Na prática, o que se faz é experimentar uma série de valores p, na seqüência: ..., -3,-2,-1,-1/2,-1/3,-1/4,0,1/4,1/3,1/2,1,2,3,... e para cada valor de p obtemos gráficos apropriados (histogramas, box plot, etc.) para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p. Para distribuições assimétricas à direita, a transformação acima com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente a valores pequenos. Para distribuições assimétricas à esquerda, tome p>1. Exemplo: consideremos os dados da variável idade dos funcionários de uma empresa, cujo histograma fica: Distribuição assimétrica à direita, tentar valores de p entre 0 e 1. Vamos considerar os seguintes valores de p: 0 (transformação logarítmica), ¼, 1/3(transformação raíz cúbica), ½ (transformação raíz quadrada) Análise de Associação Geralmente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Os dados aparecem em forma de matriz, onde nas colunas temos as variáveis (campos) e nas linhas as observações (registros). Observações 1 2 . I . n X1 x11 x21 . xi1 . xn1 X2 x12 x22 . xi2 . xn2 Variáveis . Xj . x1j . x2j . . . xjj . . . xnj . . . . . . . Xp x1p x2p . xip . xnp Objetivo: analisar as relações entre as colunas (variáveis), ou algumas vezes entre linhas (observações). O estudo das distribuições conjuntas é um poderoso instrumento para o entendimento do comportamento dos dados. Estas relações ou associações podem ser detectadas por meio de representações gráficas e medidas numéricas. Variáveis Qualitativas Exemplo: desejamos analisar o comportamento conjunto das variáveis sexo do funcionário e setor em que trabalha. A distribuição de freqüência conjunta é apresentada na tabela a seguir. Setor de atuação Freqüências 1 = Tecidos Porcentagem Count 2 = Tapetes, Cristais Column Percent Count 3 = Lustres, Ferramentas, Brinquedos Column Percent Count 4 = Presentes, Calçados, Confecção Column Percent Count All Grps Feminino Masculino Total setores 32 13 45 47,76% 39,39% 45% 1 4 5 1,49% 12,12% 5% 8 10 18 11,94% 30,30% 18% 26 6 32 38,81% 18,18% 32% 67 33 100 Existem três possibilidades de expressarmos as proporções das caselas: • em relação ao total geral • em relação ao total de cada linha • em relação ao total de cada coluna A escolha é feita de acordo com os Objetivos do trabalho Interpretação (foi fixado o total de colunas em 100%): podemos dizer que, entre os funcionários do sexo feminino, 47,76% trabalham as seção de tecidos e 38,81% trabalham na seção de presentes, calçados e confecções e, apenas 1,49% trabalham na seção de tapetes e cristais. Entre os funcionários do sexo masculino, 39,39% trabalham na seção de tecidos e 30,30% trabalham na seção de lustres, ferramentas e brinquedos e, 18,18% trabalham na seção de presentes, calçados e confecções. 1=feminino 2= masculino Interpretação: parece que estas duas variáveis estão pouco associadas. Medida de associação: Coeficiente de Contingência 2 C 2 n Onde: r s 2 i 1 j 1 n ij * 2 ij n * ij n nij= número de elementos observados pertencentes à i-ésima categoria de X e jésima categoria de Y; r = número de linhas e s = no. de colunas da tabela. nij*= número de elementos esperados pertencentes à i-ésima categoria de X e jésima categoria de Y. O valor de C está entre 0 e 1 (porém, para alcançar o valor 1 precisa de uma correção). O valor de 2 varia de 0 até o infinito. Freqüências esperadas considerando as variáveis como sendo não associadas Cálculo da freqüência esperada n * ij ni . * n. j nij 12,02 2 Este valor apresenta uma grandeza considerável. 12,02 C 0,33 12,02 100 O valor de C deveria variar de 0 a 1. Porém isso não acontece. Para evitar este inconveniente, costuma-se fazer uma correção no valor de C, o qual fica: C C t 1 / t * Onde t é o mínimo entre o r e o s 0,33 C 0,47 2 1 / 2 * Interpretação: podemos considerar que as variáveis estão medianamente associadas. Variáveis Quantitativas Gráfico de dispersão: indicado para estudar a associação entre duas variáveis quantitativas. Exemplo: consideremos os dados da variável X:idade e Y: tempo de profissão do funcionário, do setor de tecidos. O gráfico de dispersão está na figura a seguir. Vemos que, parece haver uma associação direta (positiva) entre idade e tempo de serviço. A medida que aumenta a idade, aumenta o tempo como balconista. Medida de correlação: Coeficiente de Correlação n r x i i 1 n x i 1 i x yi y x 2 n y i 1 i y 2 O coeficiente de correlação varia na faixa de: -1 r 1 Para o exemplo, o coeficiente de correlação vale: R=0,66 Portanto, as duas variáveis estão correlacionadas. Esta correlação é de grau mediano para forte. Cálculo no próximo slide. Idade (X) Tempo (Y) (X-média) (Y-média) (X-média)2 (Y-média)2 (X-média)(Ymédia) 51 43 32 25 7 8 18,31 10,31 18,31 16,4 -1,6 16,4 335,30 106,32 335,30 268,96 2,56 268,96 300,30 -16,50 300,30 . . . . . . . . . . . . . . . . . . . . . 33 32 22 8 15 2 0,31 -0,69 -10,69 -0,6 6,4 -6,6 0,10 0,47 114,25 0,36 40,96 43,56 -0,19 -4,41 70,55 SOMAS 0 0 3501,6444 2218,8 1852,4 Matriz de correlação Variáveis Quantitativas e Qualitativas Esta análise pode ser conduzida por meio de medidas descritivas (média, mediana, desvio padrão , desvio inter-quartílico), polígonos de freqüências múltiplo, box-plot. Exemplo: consideremos os dados da variável qualitativa:tipo de carro e a variável quantitativa Y: preço. A representação gráfica, através de box plot múltiplo está na figura a seguir. O gráfico sugere uma dependência entre tipo de carro e preço dos automóveis. Os preços aumentam do tamanho pequeno (small), após vem os compactos e esportivos e finalmente os grandes, as vans e médios. Medida de associação: Coeficiente de determinação Sem usar a informação da variável categorizada(tipo de carro), a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor do que a global, significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e, portanto, existe uma relação entre as duas variáveis. Tipo de carro Midsize Van Compact Sport Small Large Total n Dp(Preço) x 22 9 16 14 20 11 92 27,22 19,10 18,21 19,39 10,26 24,30 19,63 12,26 1,89 6,69 7,97 1,96 6,34 9,64 Var(Preço) 150,43 3,53 44,71 63,60 3,82 40,16 92,93 Observe na tabela que temos uma categoria (Midsize) com variância maior do que a global e cinco categorias com variância menor do que a global. Parece que a variável qualitativa (tipo de carro) melhora a capacidade preditiva da variável quantitativa (preço). Cálculo da variância entre as categorias da variável qualitativa k ME var n var i 1 i k i n i 1 i Onde k é o número de categorias (no nosso exemplo k=6) e vari denota a variância dentro da categoria i, onde i=1,2,...,k. No exemplo, temos: k n var 22150,43 93,53 ... 1140,16 MEvar 59,404 k 22 9 ... 11 i1 ni i 1 i i Podemos definir o grau de associação através do cálculo do coeficiente de determinação, dado por: R2 var(Preço ) ME(var) ME(var) 1 var(Preço ) var(Preço ) O coeficiente de determinação varia na faixa de: 0 R2 1 Exemplo: o coeficiente de determinação para o exemplo vale: var(Preço ) ME(var) ME(var) 59,40 R 1 1 0,3608 var(Preço ) var(Preço ) 92,93 2 Podemos dizer que 36,08% da variação dos preços dos automóveis é explicada pelo tipo de carro. Exemplo: vamos considerar as variáveis: Eficiência no consumo (MPG), Origem e os Preços. Vamos separar os preços por eficiência e origem. Observamos que para eficiência alta, os preços são similares, tanto para carros domésticos como para estrangeiros. Para eficiência baixa e origem doméstica, têmse os carros com os maiores preços (porcentagem baixa, apenas 2%). Diagrama de dispersão tridimensional Existem diversos softwares especializados em visualização de dados no mercado, com enfâse em data mining, entre eles: MineSet InfoZoon