Документ
Однако, в последнее время в связи с эволюцией документов все перечисленные выше определения нуждаются в обобщении. Поэтому наиболее авторитетная в этой области информатики организация DMA приняла более общую формулировку:
"документ - это набор информации, который имеет отношение к выделенной теме или к родственным темам".
Последнее определение более общее в семантическом плане - оно освобождает нас от привязки к носителям и к реквизитам. На жаргоне DMA объект неструктурированных данных, здесь и далее называемый документом1, может принимать множество различных форм: это может быть закодированный текст; оцифрованные изображения бумажных документов; графика; выходные файлы САПР; оцифрованный звук; цифровое видео ... то есть любой тип неструктурированных данных, которые могут быть авторизованы, храниться в цифровой форме и воспроизводиться в виде, воспринимаемом человеком.
Документам, как живым и интеллектуальным объектам, присущи три основные сущности, за которые ответственны три различные технологические средства. Во-первых, это объекты хранения всевозможных данных от текста до графики, видео и звука. Во-вторых, это связи, которые собственно оживляют документы и придают им интеллектуальность. Третья сущность - это атрибуты и индексы, которые появляются в результате общения с интеллектуальными агентами.
Это, в некотором смысле, синтаксическая нотация документа. С ней также связано и понятие стиль документа - форма, проявляющаяся при воспроизведении документа, то есть при его обработке текстовым процессором. Форма задается как описание формата, включающее в себя геометрию расположения текста на листе (layout), употребление определенных шрифтов для определенных целей и способ представления различных типов данных.
Когда хотят подчеркнуть, что документ включает различные типы данных (текст, таблицы, графику, видео и т.п.), то говорят о составном документе (compound document). Динамическим продолжением составного документа является виртуальный документ, представляющий собой совокупность информационных объектов, создаваемую в результате взаимодействия пользователя с информационной системой, в общем случае, - Всемирной паутиной.
Здесь, естественно, возникает понятие структуры документа. Конечно же, по всем признакам документ является структурированным объектом, и, по нашему мнению, DMA намеренно называет его неструктурированным, последовательно проводя сдвиг парадигмы построения полнотекстовых баз данных хранения документов от СУБД к гибким и универсальным складам данных (Data Warehouse).