Automação de Arquivos Gerenciamento Eletrônico de imagens de documentos Prof. Carlos H. Marcondes [email protected] Arquivos em formato “mapa de bits”: ARQUIVOS “MAPA-DE-BITS – “BIT MAP” • Arquivos em formato “mapa de bits”: como reconhecer um caracter? A a Aa A a A a ????? a Processo de digitalização • Os sistemas de gerenciamento de imagens eletrônicas de documentos associam a cada arquivo de imagem, um registro de uma base de dados com conteúdos textuais codificados, para fins de busca/recuperação de informações Tipo | Num. | Setor | Data | Assunto | Processo de digitalização A digitalização é o processo de transformar documentos em papel em arquivos digitais de imagem tipo ¨mapa-de-bits¨ Nos arquivos de imagem tipo “mapa-de-bits” cada ponto de um documento, cada ponto de cada caracter de um documento é desenhado e não representado por um código como no conjunto de caracteres ASCII Vantagens do Gerenciamento Eletrônico de Imagens de Documentos Maior “densidade” de informações por unidade de armazenamento: um CD-ROM pode conter cerca de 40.000 folhas de papel A4 digitalizadas a 300 dpi As imagens de documentos podem ser acessadas através de redes, dispensando o acesso ao documento original Isso ajuda a preservar os documentos originais Processo de digitalização Imagens são formadas por pontos Pontos são representados por um número X de “bits” Bitonal ou preto-e-branco: 1 bit por ponto: pontos pretos: “1” pontos brancos: “0” Monocromático: preto-e-branco com diversas intensidades – 4 bits, 6 bits, 8 bits, por ponto) Colorido 8 bits por ponto: 256 cores 12 bits por ponto : 4096 cores 24 bits por ponto : 16.800.000 cores (“true color”) Processo de digitalização - RESOLUÇÃO • Relação entre número de pontos de uma imagem / Área • Unidade: “dpi” (“dots per inch”) pontos por polegada quadrada • A resolução é uma medida da LEGIBILIDADE de uma imagem Processo de digitalização - RESOLUÇÃO • Corresponde à capacidade de detalhamento de uma imagem, quanto maior a resolução da imagem, maior será a sua capacidade de exibir detalhes. Processo de digitalização RESOLUÇÃO - aplicação da digitalização em DOCUMENTOS Arquivos de imagens ( de documentos) com baixa resolução são POUCO LEGÍVEIS (abaixo de 50 dpi) Acima de 800 dpi a vista humana NÃO DISTINGUE MAIS MELHORAS DE LEGIBILIDADE Quanto maior a resolução de uma imagem, maior o tamanho do arquivo que vai armazena-la Resolução razoável para documentos: 300 dpi Processo de digitalização • Como não existe um código único para cada caracter, A a A a A aa A a a , • nos arquivos “mapa-de-bits” não é possível fazer busca por conteúdo Processo de digitalização Etapas • Preparação - desarquivamento, retirada de grampos e “clips” restauração, agrupamento em lotes para a digitalização. – Fatores críticos de sucesso • o estado dos documentos • uniformidade dos documentos • critério de grupamento em lotes Processo de digitalização Etapas - Digitalização - alimentação e digitalização dos lotes no escaner – Os fatores críticos de sucesso desta etapa são • velocidade do escaner • cores da imagem: preto-e-branco, colorido, tons-de-cinza, • uniformidade dos lotes, evitando interrupção e re-ajustamento do escaner • resolução utilizada - Conferência - exame das imagens geradas para controle de qualidade, agrupamento de imagens formando documentos, eventualmente reescaneamento Processo de digitalização Etapas • Indexação - associação a cada arquivo de imagem ou a cada grupo de imagens que formam um documento, um conjunto de termos de indexação visando a recuperação da(s) imagem(ns) do documento digitalizado – Fatores críticos de sucesso desta etapa são • facilidade/velocidade de extração dos termos de indexação a partir da imagem do documento • padronização do “lay-out” do documento Processo de digitalização “hardware” e “software” envolvidos • Hardware – escaner: de mesa, com bandeja – gravador de CD-ROM – “Jukebox”: dispositivo leitor com capacidade de 8 a 48 CD-ROMs, geralmente com 4 a 8 cabeçotes de leitura Digitalização – componentes de “hardware” Gravador CD escaner “Software” de GED Estações p. consulta Sistema COM “Jukebox” Impressora O escaner – características técnicas Fonte de luz Documento Sensor – matriz de fotocélulas (resolução de “hardware”) O escaner – características técnicas • Alimentador de folhas – capacidade (no. Folhas, • • • • • • peso Tipo de interface Resolução máxima por hardware: resolução real do sensor do escaner em dpi Resolução interpolada: resolução obtida através de software Modo de digitalização: simplex (uma face) ou duplex (ambas as faces) Velocidade: em páginas (ppm) por minuto, num determinado modo e numa determinada resolução Tamanho dos documentos: capacidade de receber folhas de papel em formatos An O escaner “JUKEBOX” – características técnicas “Vitrola” robótica capaz de disponibilizar um grande número de CDs gravados com imagens de documentos • Características: – – – – Capacidade de armazenamento em GB Número de discos Número de leitores de discos Tempo de troca de discos SISTEMAS COM– características técnicas “Computer Output on MicroFiche – permite a saída de relatórios diretamente em microfichas Processo de digitalização “hardware” e “software” envolvidos • “Software” – FUNÇÕES • entrada: – Escaneamento – Conferência – Indexação – Gravação • saída: - recuperação pelos pontos de acesso estabelecidos na indexação Sistemas de Gestão Documentos • Baseados em SGBDs – usam “representações” de documentos; permitem armazenar e recuperar “representações” de documentos. • Sistemas de Gerenciamento de Imagens de Documentos – GED – permitem associar a “representações” de documentos imagens digitais desses documentos • Sistemas de gerenciamento de fluxo de trabalho – “workflow” – Permitem controlar o ciclo de vida de documentos – sua tramitação Processo de digitalização - OCR • “Optical Character Recognition” - Reconhecimento ótico de caracteres: processo de submeter uma arquivo de imagens .bitmap a um software especial, que reconhece as imagens dos caracteres e transforma a imagem de cada caracter no seu equivalente codificado (p.ex. em ASCII) • Vantagem : um arquivo textual codificado pode ser objeto de busca por conteúdo Arquivo “bitmap Arquivo codificado