Universidade de Passo Fundo Curso de Ciência da Computação Sistemas de Informação Prof. Alexandre Lazaretti Zanatta Tecnologia da Informação ■ Valor da informação – São recursos não humanos destinados ao processamento, armazenamento e resultados das informações 2/135 1 Evolução da Tecnologia Nível de Integraçao Década Sistemas Ambiente Pequeno 60 Mainframe Cpd Médio 70 Mini Pdd Alto 80 Micro Sistemas distribuídos Ultra 90 Chip C/S ??? ??? ??? ??? 3/135 Fatores Críticos ■ Tecnologia e recursos de informática – dramática evolução capacidade, redução dos custos, aumento na facilidade do uso ■ Mão de Obra – desde executivos até técnica especializada ■ Mudança da Natureza dos problemas – competição e condições econômicas ■ Aspectos Psicológicos, políticos e organizacionais – conseqüência dos anteriores, criando novas necessidades 4/135 2 Estágios do processo ■ 1º Manual – Organização e Métodos ■ 2º Automação – Sistemas Isolados ■ 3º Integração – utilização de BD 5/135 Histórico do CPD ■ Início – Primeira Aplicação. Ex: Contabilidade – processar dados ■ Contágio – Segunda Aplicação: Gerar relatórios, – fornecer informações ■ Maturidade – Terceira Aplicação: SAD – apoiar decisões 6/135 3 Novo Papel do Analista de Sistemas Organização Administrador Analista de Negócios Informática Analista de Sistemas 7/135 Definição de um sistema ■ ■ Coleção de componentes que estão cuidadosamente integrados para buscar uma proposta comum. Buscam um sinergismo, isto é, a ação integrada dos componentes, que tem um efeito mais positivo do que a soma dos efeitos dos componentes individuais operando independentemente ( Reynolds, 1988). 8/135 4 Características do sistema • Os sistemas ambiente • Todo sistema pode ser dividido dentro de subsistemas • Os sistemas mudança • O feedback e controle são essenciais interagem serão com afetados seu pela 9/135 Dados ■ Dado é uma coleção de fatos desorganizados que ainda não foram transformados em informação. ■ Representa fatos brutos no qual as conclusões podem ser desenhadas. Estes fatos devem descrever pessoas, lugares, coisas, idéias, processos e 10/135 eventos. 5 Informação ■ Informação é o conhecimento adquirido do processamento do dado. ■ A informação freqüentemente leva à ação. Obter dados de diferentes fontes, processa-los para produzir informações relevantes e usar esta informação para tomar decisões. 11/135 A qualidade do dado e informação ■ Acuracidade: – sem erro. ■ Completariedade: – Cada parte do dado deve ser completamente acurada, mas se apenas metade do dado for recebida então a informação derivada do dado deve ser inválida. 12/135 6 ■ Relevância: – dado recebido deve ser importante para aquela decisão a ser tomada. ■ Oportunidade: – ■ é importante para decisões que envolvem condições que mudam rapidamente. Auditabilidade: – habilidade para verificar a acuracidade e a completariedade dos dados. – Possibilidade de trazer de volta a sua fonte original 13/135 Convergindo dado em informação ■ O processamento do dado para converter em informação envolve um ou mais das seguintes atividades: – entrada, – processo, – armazenagem – saída 14/135 7 Entrada ■ Originar/surgir: A ocorrência de um evento ou transação no negócio resulta na origem do dado que são entradas para o sistema de informação. – Ex: recebimento de uma ordem do consumidor, recebimento de uma fatura de um fornecedor ■ Capturar: é necessário obter a transação básica do dado de alguma maneira para que ele de entrada no sistema de informação. 15/135 Entrada ■ Coletar: Deve ser necessário para combinar dados de diversas fontes para ter todos os fatos necessários ■ Verificar: O dado deve ser editado de uma forma que valide a sua entrada no sistema. – Dados de quantidade e custo devem ser numéricos, – nomes devem ser alfabéticos ■ Codificar: Antes de processar os dados devem ser convertidos de uma forma aceitável para a máquina. 16/135 8 Processo ■ Classificar: – O dado deve ser agrupado de acordo com algumas características que são úteis. ■ Sortear: – arranjado em uma seqüência para simplificar processamento ou fornecer uma idéia do dado. ■ o Calcular: – deve envolver e realizar alguma operação matemática com o dado ■ Sumarizar: – O resumo é a acumulação do dado dentro de um determinado nível. 17/135 Armazenagem ■ Atualizar: – envolve acrescentar novo dado, deletar o dado desnecessário ou mudar o dado velho para torná-lo atual. ■ Indexar: – é a criação e manutenção do endereço do computador utilizado para ajudar a localizar o dado quando ele for necessário no futuro. ■ Proteger: – precisa ser colocado em um local onde ele esteja seguro e pode ser acessado no futuro. ■ Recuperar: – envolve recuperar o dado de sua localização para que ele possa ser visto ou acessado em um novo processamento de dado 18/135 9 Saída ■ Converter: – freqüentemente a forma no qual o dado é apresentado não é a forma mais útil. ■ Relatar: – O relatório impresso é a saída mais comum para apresentar a informação derivada do dado. ■ Apresentar: – A informação está mais e mais freqüentemente sendo apresentada à administração na forma de relatório, dados tabulados ou gráficos, no terminal de computador em vez de no papel. ■ Comunicar: – O dado precisa ser movido de um local a outro para alcançar o usuário final. 19/135 Planejamento - Organizações ■ Visão Sistêmica – Elementos: (humanos, materiais, energia, financeiros, informação) – Relação entre os elementos-processo – Meio Ambiente: (fornecedores, mantenedores, sociedade, governo, clientes) – Objetivo: missão, atender necessidade do cliente, valor agregado, lucro? 20/135 10 Planejamento ■ ■ ■ ■ ■ ■ ■ Qualidade nas organizações Metodologia de planejamento - FCS BSP - Planejamento de sistemas de negócios Engenharia da Informação MASP - Método de Análise e Solução de problemas PEI Metodologia de Planej. Informações 21/135 Qualidade nas Organizações ■ ■ ■ ■ ■ ■ ■ ■ total satisfação do cliente gerência Participativa desenvolvimento de RH gerência de processos delegação disseminação de informações garantia da qualidade não aceitação de erros 22/135 11 Fatores Críticos de Sucesso (FCS) “FCS são as poucas coisas que têm que andar bem para garantir sucesso a um gerente ou organização” Áreas gerenciais de atenção especial e contínua. Metodologia FCS (CSF) : explicita os FCS Diálogos estruturados entre analistas e gerentes 23/135 Metodologia de Planej. Informações ■ ■ ■ ■ ■ ■ Análise da organização Diagnóstico PEI - Planejamento Estratégico de Informações PESI - Planejamento Estratégico Sistemas Informação PDI - Plano diretor de informática Estudo da viabilidade 24/135 12 Pirâmide da Engenharia de Informação Desenvolvimento Programação não Convencional Projeto de BD Estratégias Implementação Especificação Formação de Procedimentos Planejamento Análise de Dados Planejamento Evolucionário Usuário Prototipação Programação Convencional Descrição Programas Planejamento de Informática Análise de Informações 25/135 Planejamento de Informática Visa a obtenção de uma estratégia de informatização da empresa e do plano de ação necessário para o seu cumprimento. Comparar Agir Objetivo Plano Planejar Executar Decidir Medir Controlar 26/135 13 Planejamento de Informática X Níveis Organizacionais Clássicos Resultado a Longo Prazo, Instrumento de Análise global Produção/Meio Ambiente Resolver, em cada área operacional, problemas de alocação de recursos Estratégico Tático Operacional Detalhamento de todas as atividades e recursos necessários p/concretizar objetivos 27/135 Níveis de Decisão ■ Estratégico – longo prazo ■ Tático – médio prazo ■ Operacional – curto prazo 28/135 14 Estratégico ■ Necessitam de amplas fontes de informação e flexibilidade na modelagem. – Dados corporativos – Políticas globais da companhia e direções da organização – Comunicação de idéias é um componente importante 29/135 Tático ■ Controlam recursos corporativos, – como monitoração da performance – planejamento do orçamento, para implantar e apoiar a estratégia da companhia. ■ Não tratam os fatos rotineiros. – Dados sumarizados – Alocar recursos para atingir objetivos – Precisa de feedback das unidades operacionais 30/135 15 Operacional ■ Processamento de transações e controle dos dados do processos são as principais atividades do nível operacional ■ Dados são detalhados 31/135 Etapas de um Planejamento de Informática ■ Identificar a Equipe ■ Preparar encontros de planejamento ■ Abertura do Encontro ■ Análise do Planejamento Estratégico ■ Definição dos SI´s ■ Estabelecer Prioridades de Desenvolvimento ■ Construir o PDI 32/135 16 Etapa 1:Identificar a Equipe Pessoas - mesma equipe de Análise de Informações; – Entendimento global da organização – objetivos – estrutura interna – Necessidades de informação nos diversos níveis (pessoal da alta administração) – Recursos de Informática e sua utilização (setor de informática) – Planejamento (assessor interno ou externo ou ambos) Equipes – Atribuições – Tarefa realizada pela alta direção e consultores 33/135 Etapa 2:Preparar Encontros de Planejamento Planejando o Planejamento ❍ Definição clara dos objetivos a serem atingidos: ❍ ■ ■ ■ Qualidade Escopo Horizonte ■ ■ ■ Recursos Prioridades Metodologia 34/135 17 Etapa 3:Abertura do Encontro ❶ Elemento de Motivação e Direcionamento do Processo (realizada pelo Presidente da organização); ❷ Motivos do Planejamento de Informática; ❸ Responsável pela Informática apresenta cenário atual; ❹ Apresentação da Metodologia para o desenvolvimento do processo; 35/135 Etapa 4:Abertura do Encontro ■ Decisões e posicionamentos a longo prazo, ligadas ao planejamento corporativo – Estrutura de decisões desejadas – Forças direcionadoras – Orientações Tecnológicas 36/135 18 Etapa 5:Definição dos SI´s ■ As Bases de Dados (relacionamentos, entidades polarizadoras, grau de informação adequado a cada área, etc...) ■ ■ Os Processos Análise dos Processos & Entidades – identificar as diferentes possibilidades de sub-sistemas de informação 37/135 Etapa 6:Prioridades de Desenvolvimento ■ ■ ■ ■ ■ ■ Esta base de dados será utilizado por quais sistemas? Este sistema necessita de quais bases de dados? Qual a probabilidade de sucesso deste sistema e em que prazo? Os recursos para este sistema existem ou deverão ser adquiridos? Qual a resistência do usuário deste sistema? A tecnologia para este sistema é nova ou já está dominada? 38/135 19 Etapa 7:Construir o PDI ■ Plano Diretor de Informática (resultado do processo de planejamento) ■ Especifica o Plano de Ação para o desenvolvimento do Sistema Integrado de Informações 39/135 Universidade de Passo Fundo Curso de Ciência da Computação Plano Diretor de Informática Prof. Alexandre Lazaretti Zanatta 20 Roteiro Básico Construção de um PDI ■ 1.1 Objetivo Geral – Traçar um projeto global de informatização da empresa, visando o desenvolvimento, o controle e o atendimento das necessidades ■ 1.2 Objetivo Específico – Avaliar a atual demanda de dados cadastrais, os sistemas e equipamentos disponíveis de forma a promover um planejamento ordenado, compatibilizando a atual situação às necessidades imediatas e aos objetivos traçados pelas políticas e estratégias da empresa 41/135 Construção de um PDI. ■ 1.3 Situação Atual da Área de Informática – Esta etapa deverá conter a descrição atual situação da informática na empresa, englobando os seguintes aspectos: • • • • • Histórico e Evolução Recursos Humanos Equipamentos Aplicação - Os sistemas Dispêndios 42/135 21 Construção de um PDI. ■ 1.4 Avaliações e Considerações – Deverá ser apresentado uma análise do que foi realizado na primeira implantação de informática. – Devem ser enfatizados os benefícios decorrentes da execução de determinadas ações previstas e/ou problemas lançados pela não realização de outros ■ 1.5 Base de Planejamento – Políticas e Diretrizes – Objetivos e Metas – Objetivos Básicos do Planejamento 43/135 Construção de um PDI. ■ 1.5.1 Políticas e Diretrizes – Deverá ser apresentado os princípios básicos que conduzem a forma de implantação das atividades da área de informática, bem como, critérios e linhas de ação que orientarão o processo de tomada de decisão ■ 1.5.2 Objetivos e Metas – Deverão ser apresentados os resultados ou situações futuras a serem alcançadas, segundo Política de Informática da empresa 44/135 22 Construção de um PDI. ■ 1.5.3 Objetivos Básicos do Planejamento – Contribuição para capacitação da empresa com fins de um melhor atendimento dos programas prioritários de desenvolvimento econômico – Adequação e otimização do uso dos recursos de informática, inclusive através de intercâmbio com outras empresas (parceria) – Sigilo dos dados armazenados, processados e veiculados de interesse da privacidade e da segurança das pessoas 45/135 Construção de um PDI. ■ 1.6 O Projeto de Informática – Novas aplicações de informática, recursos humanos, equipamentos, sistemas, dispêndios, justificativa ■ 1.7 Orçamento Estimativo – Projeto, aquisição de equipamentos, aquisição de sistemas, treinamento. ■ 1.8 Cronograma Financeiro de Desembolso 46/135 23 Custos do Sistema ■ Hardware: – Tipo de máquina – configuração, impressoras, comunicação de dados, no-break / estabilizadores, dispositivos de segurança, manutenção ■ ■ Software : Comprar x Fazer Pessoal: – Gerenciamento e coordenação, consultoria e auditoria, projeto e análise de sistemas preparação e entrada de dados, operação, programação, suporte adminstrativo ■ Comuns de operação: – Treinamento, transmissão e comunicação de dados, instalação e teste de programas, troca de sistemas, material de consumo ■ Ambientais: – Espaço físico, ar condicionado, impostos e seguros, equipamentos de escritório, instalação especial? 47/135 Universidade de Passo Fundo Curso de Ciência da Computação Sistemas de Informação Prof. Alexandre Lazaretti Zanatta 24 Introdução ■ "O conhecimento técnico é importante, mas não é o suficiente” ■ O negócio deve ser colocado na frente da tecnologia. – o que nós queremos fazer – como nós podemos fazê-lo? – como a tecnologia deve nos ajudar? 49/135 Definição ■ “É uma série de elementos ou componentes inter-relacionados que coletam (entrada), manipulam e armazenam (processo), disseminam (saída) os dados e informações e fornecem um mecanismo de feedback” (Laudon) 50/135 25 Porquê desenvolver SI ■ concorrência se torna cada vez mais acirrada ■ consumidor torna-se cada vez mais exigente em relação ao custo e a qualidade do produto e dos serviços associados. ■ rentabilidade e competitividade das empresas ■ Mão-de-obra, matéria-prima, máquinas, etc., normalmente são considerados como recursos de uma empresa ■ Informação também é um recurso ■ planejamento, organização e controle de uma atividade de negócios 51/135 Componentes de um SI ■ A - Sistemas ■ B - Sistemas de Informação ■ C - SI baseados em computadores 52/135 26 Componentes de um SI ■ Sistemas – Um sistema é um conjunto de elementos inter-relacionados • Ex: sistema de ar-condicionado ou sistema filosófico (dialética) – Um sistema com intenções é um sistema criado pelo homem que busca um conjunto de objetivos para o qual ele foi criado (SI têm objetivos) 53/135 B - Sistemas de Informação ■ ■ ■ É um sistema aberto, com intenções, dinâmico e que produz informação Informação mínima possui 3 elementos: pessoas, procedimentos e dados pessoas seguem procedimentos para manipular dados e criar informações 54/135 27 C - SI baseados em computadores ■ Constituídos por pessoas, procedimentos, dados, programas e computadores. 55/135 56/135 28 Componentes de um SI Abordagem Sócio-técnica Organizações Pessoas Sistema de Informações Tecnologia Ambiente Externo 57/135 Universidade de Passo Fundo Curso de Ciência da Computação Tipos de SI Prof. Alexandre Lazaretti Zanatta 29 Tipos ■ ■ ■ ■ ■ ■ ■ ■ ■ Sistemas Especialistas Sistemas de Simulação Sistemas Distribuídos SGBD Sistemas de Hipertexto S. Hiperdocumentos GIS Groupware / Intranet ■ ■ ■ ■ ■ ■ SI Transacionais SI Gerenciais SAD SAE - Sist Aut Escrit. DataWarehouse DataMining 59/135 Sistemas de Informação Transacionais - SIT (Transaction Processing Systems ) ■ Transação: evento que ocorre num negócio (compras, vendas, pagamentos, etc...) ■ Os SIT apoiam as atividades rotineiras e operacionais da companhia, mantêm a maioria dos dados da Cia. – – – ■ Processos simples, mais altamente repetitivos Grande volume de transações, Necessidade de precisão e segurança. Exemplos SI Transacionais (SIT): – Reserva de passagens, Compras, Pagamentos 60/135 30 Tipos de SIT ■ On-line (Tempo Real): Ligação direta entre o usuário e o programa, cada transação é processada individualmente. – Exemplo: sistema de cartões de crédito. – Vantagem: Resposta imediata. ■ Batch: As transações são agrupadas e processadas como uma só unidade. – Exemplo: Folha de pagamento. – Vantagens: em alguns casos mais eficientes e mais baratos; Facilidade de controle. ■ Saídas: relatórios com sumários dos detalhes operacionais e relatórios de casos excepcionais, que auxiliam o controle e supervisão das atividades rotineiras 61/135 SIT 62/135 31 Sistema Informação Gerencial SIG ■ Objetivo: – Controle das atividades, podendo também ser utilizados para o planejamento e organização. ■ Facilitam a gerência de atividades operacionais, – Produzem periodicamente relatórios estruturados e resumidos. ■ ■ ■ Decisões táticas e de planejamento das operações. Utilizados pelas gerências de nível intermediário Saídas (relatórios SIG): sumários (impressos, tempo real). – Exemplos: relatórios de orçamentos, projeções de mãode-obra, previsões de vendas. ■ Semi-estruturados 63/135 SIG ■ Questões que um SIG pode ajudar a responder – Quais os cursos mais rentáveis da universidade? (Matrícula + pagamentos) – Qual o número médio de alunos por curso da UPF ao longo dos últimos 3 anos? – Devo duplicar os horários de uma turma? (Matrícula + dados 64/135 históricos de desistência) 32 Sistema de Apoio à Decisão - SAD Definições: – “É um sistema de informação baseado em computador que apoia pessoas engajadas em atividades de tomada de decisão”. – “É um sistema de informação baseado por computador que afeta ou que tem a intenção de afetar como as pessoas tomam decisões”. ■ Características: – – – – A necessidade de um SAD pode ser eventual. Problemas menos estruturados. Flexibilidade e adaptabilidade são essenciais. São dinâmicos pois mudam • entendimento da questão • as necessidades do problema 65/135 SAD ■ SADS específicos – aplicativo de SI com características particulares (hw e sw) • ex: sistema de locação de imóveis; sistema de alocação de recursos, etc... ■ Gerador de SADs – pacote de HW e SW que oferece conjunto de recursos para criação de um SAD específico • ex: Excel, Access, Delphi, etc... ■ Ferramentas para SAD – elementos de HW e SW que oferecem recursos para facilitar a criação de Geradores de SADs e SADs específicos 66/135 • bibliotecas para construção de Excel; macros, etc... 33 Questões: Devo criar um novo curso de engenharia ambiental? Devemos abrir um novo campus? 67/135 Devemos aumentar os preços? Sistema de Automação de Escritório ■ ■ ■ ■ ■ ■ ■ ■ Editores de texto Sistema de correio eletrônico Grupos de Notícias, Máquinas de Fax Correio de voz Sistemas multi-mídia Sistemas de Informação Distribuídos Video-conferência Tendência: – SAEs integrados => Internet. Compartilhamento de informações. ■ Obstáculos à difusão dos SAEs: – Dificuldade de integrar componentes (diferentes padrões). – Custo de armazenar informações não usuais (imagens, som, vídeos) 68/135 34 E.I.S. 69/135 EIS ■ ■ ■ ■ ■ Utilizados para obter informações globais da organização Apresentam os dados de maneira muito agregada – sendo porém possível detalhar os dados. ("drill-down") => Visão estratégica Características: – Gráficos , Interface intuitiva, Integram várias fontes de dados com contextos (séries históricas, comparações, etc). Questões (de um reitor de uma universidade): – Qual é o departamento com maior relação entre número de alunos e número professores? – Qual o departamento que mais cresceu nos últimos 3 anos? – Comparação dos dados da UPF com outras universidades comunitárias 70/135 35 Tipologias de SI EIS / SAD (foco decisão) Alta Gerência SIG (foco informação) Gerência Nível Médio Sist. Especialistas Profissionais Especializados Pessoal Operacional SIT (foco dado) Produção RH Vendas Finanças 71/135 Futuro ■ Integração de EIS + SIG + Fontes externas de dados ■ Bancos de dados multi-dimensionais: duplicação planejada de dados ■ Inteligência na recuperação de informações. ■ Datamining ( Mineração ou garimpagem de dados) ■ Inteligência de Negócios (competitiva, estratégica, empresarial) Processo estruturado e sistemático de disseminar, para executivos de uma empresa, ■ informações de ambientes externos, que podem representar ameaças e novas oportunidades. ■ Banco de dados OO, Multimidia 72/135 36 73/135 SE - Sistemas Especialistas ■ Ramo da inteligência artificial, são sistemas que usam raciocínio simbólico especializado para resolver problemas complexos. – Exs:CADUCEUS - SE p/diagnóstico médico, ILDC -SE p/escalonamento de atividades e recursos e PROSPECTORSE p/diagnóstico de solos ■ Concebidos especificamente para atender as necessidades de executivos ■ Orientado a informações internas ■ Englobam sistemas de monitoramento e controle, verificação de performance, indicadores ■ Atuar na comunicação do grupo. – Ex: correio eletrônico 74/135 37 SE interface Base de conhecimento Motor de inferência justificador especialista Engenheiro do conhecimento Subsistema de aquisição de conhecimento 75/135 Universidade de Passo Fundo Curso de Ciência da Computação Data Warehouse Prof. Alexandre Lazaretti Zanatta 38 Conceito 1 ■ Data Warehouse – consiste basicamente em uma grande massa de dados • não-voláteis, organizados em assuntos, integrados e variável em relação ao tempo – tecnologia recente – estudos indicam que não existam produtos que apliquem todos os requisitos para sua utilização 77/135 Conceito 2 ■ O Data Warehouse (DW) é um conjunto de técnicas que aplicadas simultaneamente geram um sistema de dados que nos proporcionam informações para tomada de decisões. ■ Funciona tipicamente na arquitetura cliente/servidor. 78/135 39 Objetivo ■ fornecer os subsídios necessários para a transformação de uma base de dados de uma organização de OLTP para OLAP. 79/135 OLTP On-Line Transaction Processing ■ processamentos que executam as operações do dia-a-dia da organização ■ ênfase ao suporte do negócio, através de um processamento rápido, acurado e eficiente de dados – Ex: movimento bancário 80/135 40 Exemplo Processamento. Transação - OLTP ContaA = R$ 5.000,00 ContaB = R$ 2,00 Início Débito ContaC = R$ 100,00 Conta A R$1000,00 Crédito Conta B R$ 700,00 Crédito R$ 300,00 Fim Conta C ContaA = R$ 4.000,00 ContaB = R$ 702,00 ContaC = R$ 400,00 81/135 OLAP On Line Analytical Processing ■ processamentos que suportam a tomada de decisões ■ permite analisar tendências e padrões em grande quantidades de dados – ao longo do tempo (histórico) – e em diferentes localizações (geográficos) 82/135 41 OLTP OLAP Orientados a aplicações Orientados a assuntos As Vezes de Grande tamanho Quase sempre grandes Dados granulados Dados constituídos de sumarizações Dados de pouca fontes Dados de múltiplas fontes Suporta consultas e atualizações Atualizações em modo batch Dados que mudam constantemente Dados mais estáveis Dados atuais Dados históricos Tabela 1 Diferenças entre banco de dados OLTP e OLAP (fonte: [COR 97]) 83/135 Ambiente do DW Extração e Integração dos dados DW OLTP Acesso a Dados 84/135 42 Características do Data Warehouse ■ Orientado por temas ■ Integrado ■ Variante no tempo ■ Não volátil 85/135 Orientado por temas ■ refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negócio da empresa. • Exemplos produtos, atividades, contas, clientes, etc. ■ o ambiente operacional é organizado por aplicações funcionais. • Exemplo, em uma organização bancária, estas aplicações incluem empréstimos, investimentos 86/135 e seguros. 43 Integrado ■ refere-se à consistência de nomes, das unidades das variáveis. ■ dados foram transformados até um estado uniforme. • Exemplo, considere-se sexo como um elemento de dado. 87/135 Variante no tempo ■ refere-se a algum momento específico, – não é atualizável ■ ■ enquanto que o dado de produção é atualizado de acordo com mudanças de estado do objeto em questão, refletindo, em geral, o estado do objeto no momento do acesso. a cada ocorrência de uma mudança, – uma nova entrada é criada, para marcar esta mudança. 88/135 44 Não volátil ■ Permite o "load-and-access” ■ Após integração e transformação, dados armazenados em bloco para o DW – após aos usuários ■ rollback, recuperação de falhas, commits e bloqueios 89/135 Ambiente do DW 90/135 45 Arquitetura do DW ■ Arquitetura Genérica • • • • • • • • ■ Camada de Bancos de Dados Operacionais Camada de Acesso à Informação Camada de Acesso aos Dados Camada de Metadados (Dicionário de Dados) Camada de Gerenciamento de Processos Camada de Transporte ou Middleware Camada do DW Camada de Gerenciamento de Replicação Arquitetura de Dados 91/135 Data Marts ■ É um SAD que incorpora um subconjunto de dados focalizado em funções ou atividades específicas ■ relacionado ao negócio ■ ex: previsão de vendas, medida de impacto da introdução de novos produtos ■ alternativa popular a DW 92/135 46 DW Data Marts 93/135 Data Mining ■ ■ ■ Ou KDD (Knowledge Discovery in Databases) extração implícita dos dados não conhecidos previamente e potencialmente úteis diferentes técnicas – clustering, sumarização, regras de classificação e detecção de anomalias 94/135 47 Passos para aplicação de um DW ■ DW não é um produto que se compra, mas sim um projeto que envolve: – análise e implementação, com participação de várias tecnologias. ■ a sete passos para a criação de um DW, que pode ser inicialmente um data mart (assunto específico) até mesmo um DW 95/135 no nível corporativo. Passo 1 ■ os primeiros resultados devem estar disponíveis a curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas. ■ minimiza riscos e o tempo de apresentação dos resultados iniciais. 96/135 48 Passo 2 ■ desafio de integração de sistemas. – Dados de produção e de fontes externas precisam ser mapeados para o modelo de dados do DW. ■ sincronismo – entre os dados operacionais e os dados de tomada de decisão. ■ sincronia em um banco de dados multidimensional. 97/135 Passo 3 ■ ■ a escolha do banco de dados de suporte ao DW precisa ser criteriosa. critérios – desempenho na carga e indexação dos dados, – tempo de resposta, – capacidade de armazenamento, – paralelismo, 98/135 – escalabilidade. 49 Passo 4 ■ ■ considerar as ferramentas disponíveis no mercado devem prover: – interfaces amigáveis, – geração de relatórios, – análises multi-dimensionais, – acesso via Web e data mining. 99/135 Passo 5 ■ construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho até gigabytes. 100/135 50 Passo 6 ■ ambiente DW deve ser aberto para permitir que os componentes ou ferramentas identificadas no passo 4 possam ser substituídas por outras mais atuais e eficientes. Ferramentas 101/135 Passo 7 ■ considerar o sistema de armazenamento que fisicamente gerencia – o tráfego, – alocação, – backup e – restauração dos dados. 102/135 51 103/135 Ferramentas de Extração ■ ■ Como o DW é um BD que fica separado do sistema OLTP, existem ferramentas que automatizam o processo. Ex: Platinum, Prism, Power Stage (sybase) Exemplos de BD ■ Oracle 9. Sybase IQ 12, DB2, Informix, SQL Server 7.0 104/135 52 Universidade de Passo Fundo Curso de Ciência da Computação Projeto Data Warehouse Prof. Alexandre Lazaretti Zanatta Projeto de BD Dimensional ■ Diferença entre sistemas transacionais OLTP e DW está na organização dos dados - modelo de dados ■ Modelo ER divide os dados em várias entidades distintas, cada uma gerando uma tabela do BD OLTP 106/135 53 Observações sobre MER ■ Simétrico – Todas tabelas parecem iguais, sendo difícil visualização ■ Consulta a duas tabelas – Número imensos de conexões possíveis entre duas tabelas. Quando várias tabelas muito complexo para usuário entender e fazer análises. ■ “modelos E-R não são adequados para ambientes de consultas (read-only) e não podem ser utilizados como base 107/135 para DW” Modelo Dimensional de Dados PRODUTO MERCADO Região Estado Distrito Cidade PERÍODO Ano Trimestre Mês Dia MERCADO PRODUTO PERÍODO Qtd Vendas Unidades Preço Fabricante Tp Produto Cor Tamanho 108/135 54 Opções de Projeto de DW ■ Star – (estrela) ■ Parcial Star – (estrela parcial) ■ Fact Partitioning – (particionamento de fatos) ■ Dimension Partitioning – (particionamento de dimensão) ■ Snowflake – (floco de neve) 109/135 Star ■ Dentro de cada tabela existe uma única categoria de dados históricos ■ chave primária da tabela de dados contém uma única tabela de chaves de cada dimensão ■ cada chave é uma chave gerada ■ cada dimensão é representada por uma única tabela, também através de uma chave gerada 110/135 55 Universidade de Passo Fundo Curso de Ciência da Computação Data Mining Prof. Alexandre Lazaretti Zanatta colaboração Prof Marcos Brusso Conceito ■ Mineração de dados (data mining) – É o processo de análise de conjuntos de dados – objetivo: descoberta de padrões interessantes e que possam representar informações úteis. • Um padrão pode ser definido como sendo uma afirmação sobre uma distribuição probabilística 112/135 56 O Processo de Descoberta de Conhecimento em Bancos de Dados - DCBD ■ Conhecido também por KDD (Knowledge Discovery in Databases) ■ Objetivo é a extração do conhecimento implícito e previamente desconhecido e a busca da informação potencialmente útil dos dados 113/135 DCBD (cont...) ■ ■ Este processo consiste em uma série de etapas que são executadas de forma interativa e iterativa. Interativa: – envolve a cooperação da pessoa responsável pela análise dos dados ■ Iterativa: – este processo não é executado de forma sequencial 114/135 57 Passos do Processo ■ Seleção dos dados ■ Pré-processamento ■ Transformação ■ Mineração de dados ■ Interpretação dos resultados 115/135 Seleção dos dados ■ Etapa onde o conjunto de dados que servirá de base para o processo é criado através da – seleção do conjunto de origem, – de um subconjunto das variáveis ou, – uma amostra. ■ Dados são extraídos de um banco de dados operacional ou de um armazém de dados (data warehouse) criado para servir à diversas necessidades de análise. 116/135 58 Pré-processamento ■ Nesta etapa são decididas as estratégias e realizada a limpeza dos dados a fim de – remover ruídos e – tratar dados incompletos, se for o caso. 117/135 Transformação ■ Algoritmos de mineração não podem acessar os dados em seu formato nativo – seja devido à forma em que são armazenados ou devido à normalização adotada na modelagem do banco – é necessária a conversão dos mesmos para um formato apropriado. ■ Pode-se ainda sumarizar os dados a fim de reduzir o número de variáveis sob consideração. 118/135 59 Mineração de dados ■ Consiste na efetiva aplicação do algoritmo escolhido sobre os dados a serem analisados, – objetivo de localizar os padrões desejados. ■ Qualidade dos resultados deste passo depende diretamente da correta realização das etapas anteriores. 119/135 Interpretação dos resultados ■ Nesta etapa as informações resultantes das etapas anteriores são interpretadas e avaliadas de forma que se selecione o conhecimento resultante de todo o processo 120/135 60 O Processo de Descoberta de Conhecimento em BD 121/135 por Fayyad 1996 Tipos de Padrões ■ Preditivos – São encontrados para resolver o problema de predizer o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos. 122/135 61 Tipos de Padrões (cont...) ■ Descritivos ou informativos – Têm por objetivo encontrar padrões interessantes, de forma interpretável pelo homem, que descrevam os dados 123/135 Tipos de Padrões Descritivos ■ Agrupamento ■ Regras de associação ■ Padrões sequenciais 124/135 62 Agrupamento ou Clustering ■ Resulta do processo de agrupar objetos físicos ou abstratos – em categorias ou grupos de objetos baseado em algum critério de similaridade, – de forma a identificar aglomerações que descrevam os dados. ■ Categorias podem ser mutuamente exclusivas e exaustivas ou consistir de representações mais aprimoradas como a hierárquica ou categorias sobrepostas 125/135 Agrupamentos hipotéticos de clientes 126/135 63 Regras de associação ■ são padrões descritivos que representam a probabilidade de que um conjunto de itens apareça em uma transação, dado que outro conjunto esta presente. ■ Tais regras são representadas como expressões na seguinte forma: X → Y. 127/135 Exemplo de Regras de associação ■ 80% dos clientes que adquirem o produto A, também adquirem o produto B na mesma ocasião ■ 80% = grau de confiança A = antecedente B = consequente ■ ■ 128/135 64 Padrões sequenciais ■ são regras que descrevem a tendência de que certos eventos aconteçam obedecendo uma determinada sequência temporal 129/135 Exemplo Padrão Sequencial ■ "Quando as ações da AT&T sobem dois dias seguidos e as ações da DEC não caem no período (antecedente da regra), as ações da IBM sobem no dia seguinte (conseqüente da regra) em 75% das vezes (grau de confiança da regra)." 130/135 65 Tipo de Padrão Preditivo: Regressão ■ Refere-se a descoberta de padrões preditivos onde o atributo a ser encontrado é uma variável de valor real. – Pode ser utilizada a técnica de regressão linear, • onde o atributo predito é modelado como uma simples função linear do seus atributos de entrada. ■ Ex: Redes Neurais Artificiais 131/135 Tipo de Padrão Preditivo: Classificação ■ Mais conhecida ■ Objetivo classificar itens de dados em uma entre diversas classes previamente definidas, – baseado em propriedades comuns entre um conjunto de objetos no banco de dados. 132/135 66 Exemplo de Sucesso - Supermercado ■ Considerando: – usa scanners de código de barras no caixa de compras. – O sistema é quem identifica o nome e preço do produto sendo "scaniado", e atualiza a lista de estoque – prateleiras podem ser reabastecidas em pouco tempo. – conjuntos de dados contém muitas informações valiosas que podem ser usadas para outros propósitos 133/135 ■ Informação usada para: – providenciar resumos de vendas, – estar ciente das preferências do cliente, – ganhar na competição contra outros varejistas, para ficar sabendo quais itens (ou combinação de itens) devem ser colocados a venda, – adquirir vários tipos de informações de marketing. 134/135 67 DM pode apontar: ■ Quais itens são frequentemente – comprados em combinação • (ex: cereais e leite; mostarda, pão de cachorro quente e condimentos; petiscos e refrigerante; fralda e comida para recém nascidos) – adquiridos numa compra em torno de R$ 100,00 – comprados por famílias ( uma família pode ser identificada através dos tipos de certos produtos que são tipicamente vistos por crianças) – comprados por pessoas fazendo pequenas compras 135/135 68