Automação de Arquivos
Gerenciamento Eletrônico de
imagens de documentos
Prof. Carlos H. Marcondes
[email protected]
Arquivos em formato “mapa de
bits”:
ARQUIVOS “MAPA-DE-BITS – “BIT MAP”
•
Arquivos em formato “mapa de
bits”: como reconhecer um
caracter?
A
a
Aa A
a A
a
?????
a
Processo de digitalização
• Os sistemas de gerenciamento de
imagens eletrônicas de documentos
associam a cada arquivo de imagem,
um registro de uma base de dados com
conteúdos textuais codificados, para
fins de busca/recuperação de
informações
Tipo | Num. | Setor | Data | Assunto |
Processo de digitalização
A digitalização é o processo de transformar
documentos em papel em arquivos digitais
de imagem tipo ¨mapa-de-bits¨
Nos arquivos de imagem tipo “mapa-de-bits”
cada ponto de um documento, cada ponto de
cada caracter de um documento é
desenhado e não representado por um
código como no conjunto de caracteres
ASCII
Vantagens do Gerenciamento
Eletrônico de Imagens de Documentos
Maior “densidade” de informações por
unidade de armazenamento: um CD-ROM
pode conter cerca de 40.000 folhas de
papel A4 digitalizadas a 300 dpi
As imagens de documentos podem ser
acessadas através de redes, dispensando o
acesso ao documento original
Isso ajuda a preservar os documentos
originais
Processo de digitalização
Imagens são formadas por pontos
Pontos são representados por um número X de “bits”
Bitonal ou preto-e-branco:
1 bit por ponto:
pontos pretos: “1”
pontos brancos: “0”
Monocromático: preto-e-branco com diversas intensidades
– 4 bits, 6 bits, 8 bits, por ponto)
Colorido
8 bits por ponto: 256 cores
12 bits por ponto : 4096 cores
24 bits por ponto : 16.800.000 cores (“true color”)
Processo de digitalização -
RESOLUÇÃO
• Relação entre número
de pontos de uma
imagem / Área
• Unidade: “dpi” (“dots
per inch”) pontos por
polegada quadrada
• A resolução é uma
medida da
LEGIBILIDADE de uma
imagem
Processo de digitalização -
RESOLUÇÃO
• Corresponde à
capacidade de
detalhamento de uma
imagem, quanto maior a
resolução da imagem,
maior será a sua
capacidade de exibir
detalhes.
Processo de digitalização
RESOLUÇÃO - aplicação da digitalização em
DOCUMENTOS
Arquivos de imagens ( de documentos) com
baixa resolução são POUCO LEGÍVEIS (abaixo
de 50 dpi)
Acima de 800 dpi a vista humana NÃO
DISTINGUE MAIS MELHORAS DE
LEGIBILIDADE
Quanto maior a resolução de uma imagem, maior
o tamanho do arquivo que vai armazena-la
Resolução razoável para documentos: 300 dpi
Processo de digitalização
• Como não existe um código único para
cada caracter,
A
a
A
a
A aa A a
a
,
• nos arquivos “mapa-de-bits” não é
possível fazer busca por conteúdo
Processo de digitalização Etapas
• Preparação - desarquivamento, retirada
de grampos e “clips” restauração,
agrupamento em lotes para a
digitalização.
– Fatores críticos de sucesso
• o estado dos documentos
• uniformidade dos documentos
• critério de grupamento em lotes
Processo de digitalização Etapas
- Digitalização - alimentação e digitalização dos
lotes no escaner
– Os fatores críticos de sucesso desta etapa são
• velocidade do escaner
• cores da imagem: preto-e-branco, colorido, tons-de-cinza,
• uniformidade dos lotes, evitando interrupção e re-ajustamento
do escaner
• resolução utilizada
- Conferência - exame das imagens geradas para
controle de qualidade, agrupamento de imagens
formando documentos, eventualmente reescaneamento
Processo de digitalização Etapas
• Indexação - associação a cada arquivo de
imagem ou a cada grupo de imagens que
formam um documento, um conjunto de
termos de indexação visando a recuperação
da(s) imagem(ns) do documento digitalizado
– Fatores críticos de sucesso desta etapa são
• facilidade/velocidade de extração dos termos de
indexação a partir da imagem do documento
• padronização do “lay-out” do documento
Processo de digitalização “hardware” e “software” envolvidos
• Hardware
– escaner: de mesa, com bandeja
– gravador de CD-ROM
– “Jukebox”: dispositivo leitor com capacidade
de 8 a 48 CD-ROMs, geralmente com 4 a 8
cabeçotes de leitura
Digitalização – componentes de
“hardware”
Gravador CD
escaner
“Software” de
GED
Estações p.
consulta
Sistema COM
“Jukebox”
Impressora
O escaner – características
técnicas
Fonte de luz
Documento
Sensor – matriz de
fotocélulas (resolução
de “hardware”)
O escaner – características
técnicas
• Alimentador de folhas – capacidade (no. Folhas,
•
•
•
•
•
•
peso
Tipo de interface
Resolução máxima por hardware: resolução real
do sensor do escaner em dpi
Resolução interpolada: resolução obtida através
de software
Modo de digitalização: simplex (uma face) ou
duplex (ambas as faces)
Velocidade: em páginas (ppm) por minuto, num
determinado modo e numa determinada resolução
Tamanho dos documentos: capacidade de receber
folhas de papel em formatos An
O escaner
“JUKEBOX” – características técnicas
“Vitrola” robótica capaz de
disponibilizar um grande número de
CDs gravados com imagens de
documentos
• Características:
–
–
–
–
Capacidade de armazenamento em GB
Número de discos
Número de leitores de discos
Tempo de troca de discos
SISTEMAS COM– características
técnicas
“Computer Output on MicroFiche –
permite a saída de relatórios
diretamente em microfichas
Processo de digitalização “hardware” e “software” envolvidos
• “Software”
– FUNÇÕES
• entrada:
– Escaneamento
– Conferência
– Indexação
– Gravação
• saída:
- recuperação pelos
pontos de acesso
estabelecidos na
indexação
Sistemas de Gestão Documentos
• Baseados em SGBDs
– usam “representações” de documentos; permitem armazenar e recuperar
“representações” de documentos.
• Sistemas de Gerenciamento de Imagens de Documentos –
GED
– permitem associar a “representações” de documentos imagens
digitais desses documentos
• Sistemas de gerenciamento de fluxo de trabalho –
“workflow”
– Permitem controlar o ciclo de vida de documentos – sua
tramitação
Processo de digitalização - OCR
• “Optical Character Recognition” -
Reconhecimento ótico de caracteres: processo
de submeter uma arquivo de imagens .bitmap a
um software especial, que reconhece as
imagens dos caracteres e transforma a
imagem de cada caracter no seu equivalente
codificado (p.ex. em ASCII)
• Vantagem : um arquivo textual codificado
pode ser objeto de busca por conteúdo
Arquivo “bitmap
Arquivo codificado
Download

Apresentação - Professores da UFF