Заключение
Экспоненциальный рост Internet вызвал повышенный спрос на новые решения по поиску информации. Возможности традиционных систем уже исчерпаны и оказываются недостаточными для работы с массивами данных больших объемов, доступных сегодня в Internet. Ежедневный рост объема текстовых ресурсов привел к необходимости в поисковом решении, обеспечивающем точный и легкий доступ к информации.
Решения передовых зарубежных компаний, таких как Digital (включая дочернюю Alta Vista), Documentum, Excalibur, Verity в технологии обработки электронных документов, особенно в распознавании образов и построении семантических сетей, позволяют эффективно справляться с проблемами поиска информации в Internet и Всемирной паутине. Важной особенностью большинства предлагаемых систем является их способность адаптироваться к различным типам данных для создания систем нового поколения, обеспечивающих работу в мультимедийных средах.
Области применения таких систем практически не ограничены: органы государственного управления, финансовые компании и банки, библиотеки и музеи, юридические организации и силовые ведомства, торгово-промышленные палаты и институты стандартов, аналитические и консультационные службы, медицина и фармацевтика, и многие многие другие.
Имеются также и специфические проблемы применения передовых СУД на российском рынке. Прежде всего - это неготовность большинства руководителей старой формации к большим затратам на программные продукты новых технологий. Они охотно выкладывают огромные суммы на приобретение красивых ящиков, богатых интерьеров и больших экранов, польза от которых довольно часто ограничивается демонстрацией своей мощи высоким гостям и богатым заказчикам. Но они становятся исключительно прижимистыми, когда речь касается дорогостоящих программных систем.
Конечно, стоимость современных СУД несоизмеримо высока по сравнению с привычными продуктами для персональных приложений, которые уже завоевали российский рынок.
Кроме того, неоспоримым фактом является и то, что серьезные системы, как правило, используют в качестве серверов компьютеры с RISC-архитектурой, работающих на различных UNIX-платформах. Только в самое последнее время стали появляться адекватные решения для платформы Windows NT. К сожалению, популярность RISC+UNIX решений в нашей стране не очень высока. Правда, по мнению знатоков российского рынка, уже многие организации, в особенности банки, связанные с большими потоками информации, не только осознали необходимость перехода на более серьезные, чем персональные компьютеры, программно-аппаратные платформы (особенно для корпоративного сервера), но и активно предпринимают практические шаги в этом направлении. Так что и эта проблема будет со временем преодолена.
Рубрика ‘Передовые зарубежные СУД’ Category
Приложение EFS WebFile предоставляет пользователям Excalibur EFS все возможности как глобальной сети Internet, так и корпоративных сетей intranet при помощи общепринятых клиентских средств взаимодействия с "паутиной" - брау-
зеров. Авторизованные пользователи могут использовать любой браузер для поиска и просмотра документов, хранящихся в архивах Excalibur EFS.
Приложение независимо от платформы и позволяет работать с электронными образами документов в пределах предприятия или по всему миру. При этом не требуется установка программного обеспечения для клиента EFS. Простота настройки позволяет быстро изменять внешний вид и поведение интерфейса архивов EFS. Изменения вносятся так же легко, как создаются Web-страницы, без необходимости программировать или писать сценарии графического взаимодействия.
Стратегия интеграции технологий. Excalibur EFS - это открытая система, которая может взаимодействовать с различными средствами автоматизации работы офиса: редакторами текстов, электронной почтой, настольными издательскими системами, системами поддержки документооборота и другими приложениями. В систему уже интегрированы средства распознавания текстов на русском языке. Система поддерживает широкий спектр сетевых протоколов и форматов документов, а также предоставляет связи к внешним базам данных, включая СУБД Oracle, Informix, Digital Rdb, Sybase и Ingres.
Система предназначена для сбора всех типов электронных текстов и изображений, поступающих из многочисленных источников. Документы автоматически индексируются и архивируются с использованием графического интерфейса пользователя, использующего аналогию с физическим архивом, с его шкафами, ящиками и папками, входящими документами и мусорной корзиной. Такая интуитивно понятная организация позволяет быстро освоить и легко использовать систему, одновременно предоставляя мощные средства организации, хранения, поиска и просмотра документов. Устойчивая к ошибкам технология адаптивного распознавания образов APRP дает возможность архивации и поиска электронных документов вне зависимости от наличия каких-либо ошибок при вводе, наиболее типичными из которых являются ошибки оптического распознавания символов (OCR) при вводе сканированных документов. Excalibur EFS имеет ряд важных особенностей, которые выделяют его из ряда других продуктов управления образами документов.
Индексы EFS предоставляют быстрый доступ к информации и, кроме того, они эффективны с точки зрения потребления памяти. Традиционные поисковые системы, которые индексируют только некоторые слова документов, приводят к перерасходу ресурсов в размере от 100% до 400%. Индексы же Excalibur EFS малы и часто составляют только одну треть от исходных данных и обеспечивают поиск по всем словам документа. Это, конечно, помогает улучшить производительность и минимизировать стоимость компьютерных ресурсов.
Приложение Excalibur Electronic Filing Software (EFS)
Приложение является членом семейства продуктов Excalibur RetrievalWare, обладает простыми и в то же время мощными средствами управления документами, реализуя их поиск, хранение и извлечение. Эта система, основанная на технологии APRP, обеспечивает преимущества, о которых говорилось выше:
автоматическая индексация всей совокупности документов в хранилище;
поиск документа по его полному смысловому содержанию, основанный на нечетких множествах;
• традиционные методы поиска, такие, как логический, по синонимам и ключевым словам, по запросам в духе баз данных;
высокая точность поиска, даже при наличии ошибок как в запросах, так и в документах, что особенно важно для документов, распознанных OCR-средствами;
высокая скорость поиска, реализованного на технологии нейронных сетей;
эффективное использование компьютерных ресурсов.
Графический интерфейс системы Excalibur EFS поддерживает естественную парадигму бумажного архива. Используемые пиктограммы изображают привычные объекты архива - шкафы, ящики и папки, в которых хранятся документы, ящик для новых поступлений и корзина для мусора.
Работа с документами и объектами архива выполняется в рамках многооконной технологии. С помощью различных окон можно просматривать объекты архива, а также содержимое ящика новых поступлений и корзины для мусора. Пользователь легко может взглянуть на текст и на изображения, которые содержат образцы совпадения с запросом.
Система Excalibur EFS имеет архитектуру клиент-сервер, причем серверная часть работает практически на всех UNIX-платформах, включая компьютеры Sun Microsystems, IBM, Digital Equipment Corporation (Ultrix) и Hewlett-Packard. Она поддерживает также VMS и Alpha AXP/OpenVMS компании Digital. Все платформы совместимы с клиентами Windows и Мае.
Система Excalibur EFS может автоматически настраиваться на оптимальное использование ресурсов компьютера (оперативной памяти, дисков и т.п.)
для получения быстрого доступа к информации. Такая техника самооптимизации как конкретных данных, так и используемых ресурсов компьютера позволяет легко адаптироваться к новым аппаратным решениям и технологиям, появляющимся на рынке. По мере внедрения новых технологий, например, методов параллельной обработки информации, повышения мощности и совершенствования архитектуры компьютеров, та же самая система Excalibur EFS, которая работает на компьютерах сегодняшнего дня, будет эффективно функционировать на новых компьютерах и автоматически использовать их ресурсы, при этом значительно сокращая время отклика.
Приложение Excalibur Visual RetrievalWare
Однако, эффективный доступ ко все возрастающим архивам визуальных данных в масштабах корпоративных информационных систем является важным для использования всего потенциала этих информационных архивов. Также, как и в случае с текстовыми данными, пользователям необходимы интуитивные, быстрые и эффективные методы для поиска визуальной информации. Имеется насущная потребность в поисковых системах, которые могли бы дать пользователям возможность искать то, что им нужно, просто спросив, "Есть ли что-либо, что выглядит как это?" - является ли это фотографией, видео-клипом, торговой маркой, изображением отпечатков пальцев или любым другим типом визуальной информации.
На сегодняшний день приложение Excalibur Visual RetrievalWare является именно той информационной системой, которая наиболее успешно справляется с упомянутыми выше проблемами. Оно, как и многие другие продукты Exalibur, использует технологию адаптивного распознавания образов APRP, что дает возможность автоматически индексировать и извлекать визуальные данные в соответствии с их содержанием.
Система выполняет предварительное исследование (обучение) всех аспектов обрабатываемых визуальных данных, будь то форма изображения, его цвет и оттенки, а затем создает поисковый индекс, который, как правило, составляет менее 10% первоначального файла. Пользователи могут затем давать запросы, используя примеры визуальных данных или предоставляя некий визуальный ключ, связанный с данным изображением. Такой же процесс обучения система выполняет с ключевым изображением, возвращая затем список подобных или даже точно совпадающих изображений.
Имеется приложение Excalibur Visual RetrievalWare Software Developers Kit (SDK), которое наделяет визуальную поисковую систему и библиотеку обработки изображений средствами для анализа, индексации и извлечения цифровых изображений. Как часть семейства продуктов Excalibur RetrievalWare, приложение Excalibur Visual RetrievalWare предоставляет все свои поисковые возможности в виде открытой, гибкой, масштабируемой и защищенной архитектуры, в которую можно легко включить дополнительные модули.
Интеграция Excalibur Visual RetrievalWare и текстовых серверов Excalibur Retrieval Ware, описанных выше, образует чрезвычайно мощную систему средств поиска и извлечения информации.
Приложение Excalibur Visual RetrievalWare
В настоящее время электронные документы включают не только текстовую и числовую информацию, но и графику, изображения, видео, аудио и многочисленные другие специализированные цифровые данные, такие как отпечатки пальцев, фотопортреты, включая изображения фотороботов, сигнальную информацию от всевозможных датчиков.
В настоящее время помимо текстов компьютеры способны эффективно, на промышленном уровне обрабатывать только изображения - графические образы, синтезированные компьютером, или введенные и оцифрованные с помощью подходящих устройств. Звуком в последнее время интенсивно занимаются на исследовательском уровне, но в промышленных системах обработки документов для звука время еще не созрело.
Семейство продуктов компании Excalibur Technologies включает в себя приложение Excalibur Visual RetrievalWare, которое имеет эффективные средства поиска в данных, содержащих видеоизображения. Приложение дает потенциальные возможности построения нового поколения систем управления визуальной информацией для широкого диапазона приложений - от электронных магазинов и цифровых библиотек до систем визуального наблюдения и опознания.
Для обеспечения реального управления визуальной информацией необходимо решить ряд технических и концептуальных задач. В отличие от текстовых данных видеоизображения имеют очень высокий уровень "насыщенности" информацией (как известно, "рисунок стоит тысячи слов"). Однако содержание информации в видеоданных подвержено субъективной интерпретации, делая таким образом индексацию и поиск информации особенно трудной задачей.
Традиционные поисковые машины основаны на работе с символьными данными и предоставляют мало возможностей доступа к большим архивам визуальных данных. По мере роста объема информации, проблема архивации этих данных с возможностью последующего их поиска и извлечения становится особенно актуальной. Текстовые и основанные на SQL-запросах поисковые системы могут быть применены к визуальным данным только посредством добавления новых неестественных категорий и ключевых слов, что в контексте визуальных данных является процедурой, связанной с неопределенностью и неоднозначностью. Неадекватность этого подхода очевидна: когда, например, можно считать, что синий цвет становится зеленым?
Приложение Excalibur RetrievalWare
Приложение Excalibur RetrievalWare содержит три основных компонента: Excalibur RetrievalWare Semantic and Pattern Server, Excalibur RetrievalWare Web Server, Excalibur RetrievalWare Profiling Server.
Рассмотрим более подробно эти компоненты, которые по терминологии компании Excalibur Technologies носят название текстовых серверов.
Excalibur RetrievalWare Semantic and Pattern Server. Этот сервер сочетает технологии APRP, а также статического и логического поиска. Он оптимизирован для приложений, требующих высокого уровня устойчивости к ошибкам. К таким приложениям, прежде всего, относятся СУД, в которых сканируются и распознаются средствами OCR большие объемы бумажных документов. Он не зависит от конкретного языка, что обеспечивает быструю разработку систем поиска многоязычных текстов.
Excalibur RetrievalWare Web Server. Этот сервер обеспечивает интерфейс пользователя на основе языка HTML, что необходимо для взаимодействия с серверами Всемирной паутины при использовании обычных браузеров в качестве клиентов. В отличие от традиционных Web-серверов и поисковых машин он поддерживает идеологию выделенного сервера приложения, обеспечивая одновременную обработку большого количества параллельно поступающих запросов. Этот сервер поддерживает все основные UNIX-платформы, а также NT. Отметим следующие отличительные особенности данного сервера:
• встроенный анализатор SGML для синтаксического анализа HTML;
• индексирование маркеров HTML как полей, по которым может осуществляться поиск;
• индексирование гипертекстовых связей в документах HTML непосредственно, без преобразования их в абсолютные связи;
• включение хранимых запросов в страницы HTML с целью извлечения документов без предварительного конфигурирования;
• шаблоны HTML для простоты конфигурирования форм поиска.
Excalibur RetrievalWare Profiling Server. Этот сервер отвечает за фильтрацию и сортировку в реальном масштабе времени обработки сообщений, получаемых по каналам новостей и электронной почте, а также других динамических информационных потоков. Архитектура сервера оптимизирована и согласована с производительностью остальных серверов RetrievalWare (Semantic, Pattern и Web) для обеспечения работы в реальном времени.
Приложение Excalibur RetrievalWare
• Множественные лексические источники. Семантические сети Excalibur построены на базе авторитетнейших словарей и тезаурусов - база знаний включает более 400 000 значений слов и более полутора миллионов отношений между словами.
• Обработка естественного языка. Пользователь может ввести запрос на простом естественном английском языке, который будет автоматически преобразован в набор связанных терминов и понятий, и поиск информации уже будет производиться на их основе.
• Морфология. Найденные слова в документах гораздо более точно соответствуют заданному запросу, чем в традиционных системах, так как они исключают возможные ошибки и охватывают все варианты произношения.
• Идиомы. Для обеспечения точного поиска производится распознавание идиом, например, при обработке фразы "real estate" (недвижимость) она будет восприниматься как одно понятие, а не как два отдельных слова.
• Семантика. После обработки запроса пользователю будет выдано несколько значений слов - ему достаточно будет только "указать-и-щелкнуть", чтобы выбрать подходящее ему значение.
• Многоуровневый словарь. Семантические сети Excalibur поддерживают многоуровневую структуру словаря для обеспечения высокой эффективности и гибкости. В ней имеются как специализированные слои (медицина, право, финансы, инженерия, и т.п.), так и интегрированные. Пользователи могут также дополнять словарь своими собственными терминами и понятиями, не нарушая целостность основной базы знаний.
Приложение Excalibur RetrievalWare построено на гибкой, модульной, масштабируемой архитектуре, предназначенной для работы в распределенной среде клиент-сервер, способной поддерживать как очень большие базы данных, так и большое количество пользователей.
Приложение Excalibur RetrievalWare
Как уже отмечалось выше, технология Excalibur's APRP открывает новые возможности поиска цифровой информации на основе принципа, по которому в биологических системах действуют нейронные сети для обработки информации. APRP действует как самоорганизующаяся система, которая способна учиться и запоминать двоичные образцы (patterns), найденные в данных. При этом APRP автоматически индексирует эти образцы цифровой информации, создавая некое подобие ассоциативной памяти, которая оптимизирована на естественное хранение содержимого данных.
Использование этого подхода, основанного на адаптивном распознавании образов, дает также ряд преимуществ в текстовых приложениях.
• Автоматические, самоорганизующиеся индексы. Исчезает необходимость дорогого ручного труда по определению ключевых слов, построений тематических деревьев, установления экспертных правил, сортировки и указания полей в базах данных. Устраняется неизбежная в этих случаях субъективность назначения индексов для различных категорий.
• Нечеткий поиск (Fuzzy searching). Позволяет находить данные, похожие на требования запроса. Имеет естественную устойчивость к ошибкам как во входных данных, так и в запросах. Исключает необходимый для традиционных процедур оптического распознавания этап ручной корректировки. Обеспечивает конечному пользователю уверенность, что все его запросы будут правильно обработаны, несмотря на орфографические ошибки в запросах или в текстах искомых документов.
• Независимость от языка! - Совершенно неожиданное и необычайное качество, оно обеспечивает возможность быстрой разработки многоязычных приложений.
• Высокая эффективность. Небольшие индексы образцов и их совмещение при поиске на двоичном уровне обеспечивает высокую скорость поиска и эффективное использование компьютерных ресурсов.
Хорошо известно, что семантические сети обеспечивают высокую эффективность поиска информации, используя всю мощность и выразительность естественных языков, которые они способны обрабатывать. Встроенные в приложения Excalibur семантические сети включают синтаксис, морфологию, и, что наиболее важно - семантику, то есть фактическое значение слов, такое как оно определено в толковых словарях. Семанические сети Excalibur являются основой наиболее значительных достижений рассматриваемых продуктов.
Excalibur: "Обрати бумагу в золото"
Индексирование в Excalibur выполняется с использованием APRP-технологии на битовом уровне. При этом используется мощный, встроенный, полный семантический словарь, включающий более 400 тыс. слов, 50 тыс. лингвистических идиом и 1,6 миллиона взаимосвязей между словами.
Поиск информации основан на APRP-технологии. При этом система оперирует приближенными двоичными образами, а не точными словами и фразами, поэтому она обеспечивает поиск необходимой информации, даже если написание фразы в запросе неточно или ошибочно. Скорость поиска в APRP-технологии очень высока.
Просмотр документов осуществляется обычным браузером, действующим на широкодоступных операционных платформах: MS Windows, Mac, Motif, X Window, Sun Open Look. Если документы имеют формат PostScript или PDF, то приложение Adobe Acrobat запускается автоматически.
Преимущества применения APRP-технологии для мультимедиа приложений хорошо описано в работе.
Обработка больших объемов информации, включающей изображения, видео- и звукозаписей, является проблемой огромной сложности. Технология адаптивного распознавания обеспечивает создание единого алгоритма, с помощью которого можно индексировать и искать данные всех видов, включая слова и фразы, рисунки и графические изображения бумажных документов, звукозаписи и видеозаписи. При работе с мультимедиа система может найти изображение по его фрагменту, видеофильм - по последовательности видеокадров.
Коллекция продуктов Excalibur Technologies включает следующие системы: Excalibur RetrievalWare, Excalibur Visual RetrievalWare, Excalibur EFS.
Рассмотрим эти продукты подробнее.