Потоковый ввод документов
Как уже упоминалось ранее, существует ряд учреждений, которые накопили значительное количество бумажных документов, требующих частого и оперативного использования. К ним относятся библиотеки, издательства, депозитарии научно-технической и патентной документации, архивы Госстандарта, хранилища нормативно-правовой информации, крупные фармацевтические фирмы, и многие другие. Для таких учреждений первостепенной является задача преобразования бумажных документов в электронные. Для решения этой задачи применяются высокопроизводительные системы потокового ввода документов, которые включают высокопроизводительные сканеры с автоматической подачей листа и способностью двухстороннего сканирования, специальное программное обеспечение обработки изображений и устройства подготовки материалов к сканированию.
Ядром такой системы служит OCR-программа (Optical Character Recognition). Перечислим основные требования, предъявляемые к таким программам на современном уровне технологии:
• самообучаемость при вводе новых шрифтов;
• возможность распознавания документов, напечатанных на любых печатающих устройствах с регулярными или пропорциональными гарнитурами, а также фотокопий;
• возможность выделения рисунков (в полуавтоматическом режиме) и спасение их в файлах выбранного графического формата;
• легкость в эксплуатации.
Опыт эксплуатации различных пакетов ввода с автоматическим распознаванием текста показывает, что сообщения об их интенсивном и высокоэффективном использовании носят, в основном, рекламный характер. Их применение может быть целесообразным только при таком вводе, когда не требуется восстановления структуры документа. Если же требуется его логическая структуризация, то затраты на автоматическое распознавание с последующей структуризацией могут оказаться сопоставимыми с непосредственным ручным вводом текста по специализированным экранным формам типа электронных таблиц, экранных интерфейсов баз данных и т.п. В последнем случае можно не только получить безбумажную копию документа, но и улучшить его качество за счет формализованного контроля.
Таким образом, использование систем автоматического ввода и распознавания документов весьма специализировано и ограничено. Оно оправдано только при потоковом вводе достаточно однородного материала.
Проблема ввода документов решается дешевле, проще и адекватнее путем реорганизации деятельности таким образом, чтобы вновь создаваемые документы сразу бы формировались в машинной форме.
В рубрике: Общая характеристика СУД