Поиск и просмотр документов

В случае атрибутивного индексирования при вводе документа в систему формируются реквизиты, однозначно его идентифицирующие. Это могут быть такие атрибуты документа, как имя автора, дата создания, дата последнего редактирования, тема и др. Для атрибутного индекса обычно применяется одна из распространенных СУБД, как правило, реляционная. Конечные пользователи (или администраторы) вводят значения атрибутов при регистрации и сохранении документа, либо администратор системы пишет некоторую программу, которая автоматически извлекает информацию из самого документа или создавшего его приложения.
Поиск по атрибутному индексу осуществляется стандартными средствами обработки запросов в СУБД. Результатом такого поиска стануг только те документы, которые удовлетворяют заданному строгому критерию.
Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному, но возможности поиска существенно сужаются.
В случае полнотекстового индексирования создается файл инвертированных списков, содержащий перечень всех значимых слов по всем обрабатываемым документам. Незначимые слова (предлоги, союзы и др.), включенные в так называемый СТОП-словарь, не вносятся в индекс. Кроме того, существует возможность установления взаимосвязей между отдельными словами, которые являются основными строительными элементами семантического словаря - тезауруса! Это позволяет реализовать не только возможность поиска по простому совпадению символов в словах и словосочетаниях, объединенных операторами булевой алгебры, но и осуществлять интеллектуальный поиск, включая в запрос, например, синонимы или обобщения (поиск с использованием тезауруса).
Большинство современных систем обеспечивает "мгновенное" индексирование, т.е. изменения, внесенные в документы, отражаются в индексе "одновременно" с коррекцией, что позволяет сразу получать необходимые документы при выполнении поиска.
Одним из новых и передовых методов полнотекстового индексирования базируется на адаптивном распознавании образов (Adaptive Pattern Recognition - APR), которое поддерживает как текстовые, так и нетекстовые объекты, например, отсканированные изображения документов, аудио- и видеоинформацию. Используя модель нейронных сетей, APR работает как самоорганизующаяся система, изучающая и запоминающая двоичные образы, найденные в данных. APR автоматически индексирует двоичные образы; формируемый при этом индекс является самооптимизируемым в зависимости от содержимого данных. В результате система позволяет вести так называемый "нечеткий поиск", при котором происходит отбор всех документов с битовой структурой, аналогичной указанной в критерии поиска. Эти уникальные возможности APR обеспечивают значительные преимущества при поиске практически любых типов электронной информации, включая текст, изображение, видео, звук.
При выборе СУД необходимо обращать особое внимание на функциональные возможности индексирования и поиска - там должен быть реализован комбинированный способ индексирования, позволяющий организовать объединенный поиск как по реквизитам, так и по свободному тексту (например, по терминам в документах за определенный диапазон времени).