2COP229
Inteligência Computacional
Aula 2
Conhecendo seus Dados
[email protected]
2COP229
Inteligência Computacional
Sumário (Conhecendo seus Dados)
- Revisão
- Teoria dos Conjuntos e Classes
- Rough Set
- Atributos
- Tipos de Atributos
- Descritores de Atributos
-Pré Processamento
- Cleaning
- Reduction
- Transformation e Discretization
[email protected]
2COP229
Inteligência Computacional
Revisão
Inteligência Computacional
[email protected]
2COP229
Inteligência Computacional
Revisão
Principais abordagens da Inteligência Computacional
Metodologia
Vantagem
Rede Neural Artificial (Artificial
Neural Network – ANN)
Adaptação, Aprendizado e
Aproximação
Lógica Nebulosa (Fuzzy Logic
-FL)
Raciocínio aproximado ao
natural
Algoritmos Genéticos (Genetic
Algorithms - GA)
Otimização baseada em
múltiplos parâmetros
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Conjuntos
- Os elementos podem pertencer a um ou nenhum conjunto.
- Não existe distinção entre os elementos, todos os elementos
pertencentes a um grupo o preenchem.
- Formalmente:
sendo x um elemento pertencente a U (universo de objetos) e A
um conjunto (crisp):
A ⊆ U, x ∈ A ou x ∉ A
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Rough Sets (Conjuntos Brutos)
- Necessidade de interpretar, caracterizar, representar e
processar o não discernimento entre os elementos;
- Para Slowinski “Conhecimento é a habilidade de classificar
objetos”.
- Para o Rough Set os exemplos do mundo são expressos por
um sistema de decisão formado por atributos, exemplos e a
decisão associada.
- Um conjunto de objetos é descrito por meio de atributos e
valores relacionados a cada um desses atributos.
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Rough Sets (Conjuntos Brutos)
Um Sistema de Decisão – SD :
SD = (U, A ∪ {d}) onde d ∉ A é o atributo de decisão.
a ∈ A é uma função total a: U → Va (valores permitidos)
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Rough Sets (Conjuntos Brutos)
Relação de Não-Discernimento
x e y são elementos.
Objetos discerníveis:
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Rough Sets (Conjuntos Brutos)
Função de Discernimento f(B)
Atributo dispensável:
Um atributo é dispensável ou supérfluo ou redundante em B ⊆ A
se IND(B) = IND(B-{a}). Se todos os atributos a ∈ B são
indispensáveis então B é ortogonal.
[email protected]
2COP229
Inteligência Computacional
Teoria dos Conjuntos e Classes
Teoria dos Rough Sets (Conjuntos Brutos)
Considerando o exemplo:
B = {Estudos, Educação, Trabalha} tem-se
IND(B) = IND(B-{Trabalha} = IND(B-{Educação})
Categoria
imprecisa
[email protected]
2COP229
Inteligência Computacional
Atributos
- Atributo é um campo de dado que representa uma característica ou recurso de um
objeto de dados.
- São sinônimos: Atributos, Dimensão, Recurso ou Variável.
- Os tipos de atributos são determinados por tipos de valores como: Nominal
(nominais), Binary(binário), Ordinal ou Numérico.
Tipos de Atributos
- Atributos Nominais: “Relacionado a nomes”, podem ser símbolos ou palavras que
relacionam-se as dimensões nos elementos. Exemplo: “marrom”, “vermelho”,
“casado”, “divorciado”.
- Atributos Binários: São atributos que variam entre duas possibilidades.
Normalmente são relacionados a presença ou ausência de uma categoria. Exemplo:
“fumante” e “masculino”. Podem ser simétricos quando os valores tem o mesmo
peso ou assimétricos quando os valores são de importâncias diversas. Exemplos:
genero (simétrico) e HIV (assimétrico).
[email protected]
2COP229
Inteligência Computacional
Atributos
Tipos de Atributos
- Atributos ordinais: Estão relacionados a ordem ou ranking de
algo. Podem ser obtidos pela discretização de informações
numéricas. Este atributo, assim como nominal e binário são
qualitativos (que descrevem algo). Exemplo: tamanho como
pequeno (1), médio (2) e grande (3).
- Atributos numéricos: É um atributo quantitativo, que mede
quantidade de algo e é representado por valores inteiros ou
reais. Exemplo: temperatura, altura, pressão, velocidade etc.
Devido a sua escala, pode-se computar tendências
estatisticamente.
1) Idade é de qual tipo de atributo?
[email protected]
2COP229
Inteligência Computacional
Atributos
Descritores de Atributos
- Para que os processos subsequentes de processamento,
classificação etc dos dados seja bem sucedida é necessário que
os dados descrevam bem o problema a ser tratado.
- Pode-se usar os descritores estatísticos dos atributos para
melhor avaliá-los:
1) Medidas de Tendência: Média, Mediana e Moda.
2) Medidas de Dispersão: Variância, Inter-Quartis, Desvio
Médio e Desvio Padrão.
- Outlier: São amostras que fogem ao padrão a ser classificado.
[email protected]
2COP229
Inteligência Computacional
Atributos
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
- É o processo de melhorar a qualidade dos dados, isto é,
aumentar os níveis de:
• Acurácia;
• Completitude;
• Consistência;
• Sequencia;
• Credibilidade;
• Interpretabilidade.
- Entre as tarefas do pré-processamento, temos:
• Data Cleaning (limpeza dos dados);
• Data Integration (integração de dados);
• Data Reduction (redução de dados);
• Data Transformation and Discretization (Transformação e
discretização dos dados).
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Cleaning (limpeza dos dados)
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Cleaning (limpeza dos dados)
1) Valores ausentes:
• Ignorar a Tupla;
• Preencher valor manualmente;
• Utilizar uma constante global;
• Utilizar uma medida de tendência;
2) Informações ruidosas;
• Binning;
• Regressão;
• Análise de outliers.
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Integration (integração de dados)
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Integration (integração de dados)
1) Redundância e Análise de Correlação;
2) Detecção de Conflitos e Resolução;
3) Duplicação de Tuplas;
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Reduction (redução de dados)
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Reduction (redução de dados)
1) Redução de Dimensão.
- Principal Components Analysis (PCA);
- Discrete Wavelet Transforms (DWT);
- Attribute Subset Selection;
1) Redução de Amostras;
- Regressão e Redução Paramétrica.
- Histogramas
- Clustering;
- Amostragem;
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Transformation and Data Discretization
[email protected]
2COP229
Inteligência Computacional
Pré-processamento
Data Transformation and Data Discretization
1) Transformação de Dados:
- Smoothing;
- Construção de Atributos;
- Agregação;
- Normalização;
2) Discretização dos Dados:
- Binning;
- Histograma;
- Clustering;
- Árvore de Decisão;
- Análise de Correlação.
[email protected]
2COP229
Inteligência Computacional
Referências:
Silva, IN da, Danilo Hernane Spatti, and Rogério Andrade Flauzino. "Redes neurais
artificiais para engenharia e ciências aplicadas." São Paulo: Artliber (2010).
Konar, A. “Computational Intelligence: Principles, Techniques and Applications” (2005)
Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008)
[email protected]
Download

Aula 2 Conhecendo seus Dados