2COP229 Inteligência Computacional Aula 2 Conhecendo seus Dados [email protected] 2COP229 Inteligência Computacional Sumário (Conhecendo seus Dados) - Revisão - Teoria dos Conjuntos e Classes - Rough Set - Atributos - Tipos de Atributos - Descritores de Atributos -Pré Processamento - Cleaning - Reduction - Transformation e Discretization [email protected] 2COP229 Inteligência Computacional Revisão Inteligência Computacional [email protected] 2COP229 Inteligência Computacional Revisão Principais abordagens da Inteligência Computacional Metodologia Vantagem Rede Neural Artificial (Artificial Neural Network – ANN) Adaptação, Aprendizado e Aproximação Lógica Nebulosa (Fuzzy Logic -FL) Raciocínio aproximado ao natural Algoritmos Genéticos (Genetic Algorithms - GA) Otimização baseada em múltiplos parâmetros [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Conjuntos - Os elementos podem pertencer a um ou nenhum conjunto. - Não existe distinção entre os elementos, todos os elementos pertencentes a um grupo o preenchem. - Formalmente: sendo x um elemento pertencente a U (universo de objetos) e A um conjunto (crisp): A ⊆ U, x ∈ A ou x ∉ A [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Rough Sets (Conjuntos Brutos) - Necessidade de interpretar, caracterizar, representar e processar o não discernimento entre os elementos; - Para Slowinski “Conhecimento é a habilidade de classificar objetos”. - Para o Rough Set os exemplos do mundo são expressos por um sistema de decisão formado por atributos, exemplos e a decisão associada. - Um conjunto de objetos é descrito por meio de atributos e valores relacionados a cada um desses atributos. [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Rough Sets (Conjuntos Brutos) Um Sistema de Decisão – SD : SD = (U, A ∪ {d}) onde d ∉ A é o atributo de decisão. a ∈ A é uma função total a: U → Va (valores permitidos) [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Rough Sets (Conjuntos Brutos) Relação de Não-Discernimento x e y são elementos. Objetos discerníveis: [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Rough Sets (Conjuntos Brutos) Função de Discernimento f(B) Atributo dispensável: Um atributo é dispensável ou supérfluo ou redundante em B ⊆ A se IND(B) = IND(B-{a}). Se todos os atributos a ∈ B são indispensáveis então B é ortogonal. [email protected] 2COP229 Inteligência Computacional Teoria dos Conjuntos e Classes Teoria dos Rough Sets (Conjuntos Brutos) Considerando o exemplo: B = {Estudos, Educação, Trabalha} tem-se IND(B) = IND(B-{Trabalha} = IND(B-{Educação}) Categoria imprecisa [email protected] 2COP229 Inteligência Computacional Atributos - Atributo é um campo de dado que representa uma característica ou recurso de um objeto de dados. - São sinônimos: Atributos, Dimensão, Recurso ou Variável. - Os tipos de atributos são determinados por tipos de valores como: Nominal (nominais), Binary(binário), Ordinal ou Numérico. Tipos de Atributos - Atributos Nominais: “Relacionado a nomes”, podem ser símbolos ou palavras que relacionam-se as dimensões nos elementos. Exemplo: “marrom”, “vermelho”, “casado”, “divorciado”. - Atributos Binários: São atributos que variam entre duas possibilidades. Normalmente são relacionados a presença ou ausência de uma categoria. Exemplo: “fumante” e “masculino”. Podem ser simétricos quando os valores tem o mesmo peso ou assimétricos quando os valores são de importâncias diversas. Exemplos: genero (simétrico) e HIV (assimétrico). [email protected] 2COP229 Inteligência Computacional Atributos Tipos de Atributos - Atributos ordinais: Estão relacionados a ordem ou ranking de algo. Podem ser obtidos pela discretização de informações numéricas. Este atributo, assim como nominal e binário são qualitativos (que descrevem algo). Exemplo: tamanho como pequeno (1), médio (2) e grande (3). - Atributos numéricos: É um atributo quantitativo, que mede quantidade de algo e é representado por valores inteiros ou reais. Exemplo: temperatura, altura, pressão, velocidade etc. Devido a sua escala, pode-se computar tendências estatisticamente. 1) Idade é de qual tipo de atributo? [email protected] 2COP229 Inteligência Computacional Atributos Descritores de Atributos - Para que os processos subsequentes de processamento, classificação etc dos dados seja bem sucedida é necessário que os dados descrevam bem o problema a ser tratado. - Pode-se usar os descritores estatísticos dos atributos para melhor avaliá-los: 1) Medidas de Tendência: Média, Mediana e Moda. 2) Medidas de Dispersão: Variância, Inter-Quartis, Desvio Médio e Desvio Padrão. - Outlier: São amostras que fogem ao padrão a ser classificado. [email protected] 2COP229 Inteligência Computacional Atributos [email protected] 2COP229 Inteligência Computacional Pré-processamento [email protected] 2COP229 Inteligência Computacional Pré-processamento - É o processo de melhorar a qualidade dos dados, isto é, aumentar os níveis de: • Acurácia; • Completitude; • Consistência; • Sequencia; • Credibilidade; • Interpretabilidade. - Entre as tarefas do pré-processamento, temos: • Data Cleaning (limpeza dos dados); • Data Integration (integração de dados); • Data Reduction (redução de dados); • Data Transformation and Discretization (Transformação e discretização dos dados). [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Cleaning (limpeza dos dados) [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Cleaning (limpeza dos dados) 1) Valores ausentes: • Ignorar a Tupla; • Preencher valor manualmente; • Utilizar uma constante global; • Utilizar uma medida de tendência; 2) Informações ruidosas; • Binning; • Regressão; • Análise de outliers. [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Integration (integração de dados) [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Integration (integração de dados) 1) Redundância e Análise de Correlação; 2) Detecção de Conflitos e Resolução; 3) Duplicação de Tuplas; [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Reduction (redução de dados) [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Reduction (redução de dados) 1) Redução de Dimensão. - Principal Components Analysis (PCA); - Discrete Wavelet Transforms (DWT); - Attribute Subset Selection; 1) Redução de Amostras; - Regressão e Redução Paramétrica. - Histogramas - Clustering; - Amostragem; [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Transformation and Data Discretization [email protected] 2COP229 Inteligência Computacional Pré-processamento Data Transformation and Data Discretization 1) Transformação de Dados: - Smoothing; - Construção de Atributos; - Agregação; - Normalização; 2) Discretização dos Dados: - Binning; - Histograma; - Clustering; - Árvore de Decisão; - Análise de Correlação. [email protected] 2COP229 Inteligência Computacional Referências: Silva, IN da, Danilo Hernane Spatti, and Rogério Andrade Flauzino. "Redes neurais artificiais para engenharia e ciências aplicadas." São Paulo: Artliber (2010). Konar, A. “Computational Intelligence: Principles, Techniques and Applications” (2005) Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008) [email protected]