Классификация и кластеризация документов
Одним из наиболее теоретически обоснованных и проверенных на практике методов классификации является метод факторного анализа, который построен на поиске максимальной вариации данных посредством поворота осей в пространстве параметров (в математической статистике этот метод часто называют методом главных осей). В этом методе классификация построена на векторах, максимально удаленных друг от друга, а классификационные признаки отбираются такими, чтобы их средние значения проявляли наибольшие вариации. Конечно, этот метод всем хорош, кроме простоты, и годится больше для научных исследований, чем для практических применений.
С практической точки зрения наиболее подходящим методом классификации является метод группировки и поиска ближайшего соседа. Этот метод основан на описании класса как списка входящих в него элементов. Классы формируются при вычислении расстояния между парами объектов и объединения ближайших соседей в кластеры. Конечно же, этот метод нагляден и прост до тривиальности, а результаты дает очень хорошие. В последнее время в связи с прогрессом в развитии инструментальных средств человеко-машинного интерфейса наиболее популярными считаются интерактивные кластерные методы, когда пользователь может в процессе работы за компьютером получать результаты кластеризации, исследуя структуру кластеров визуально на экране дисплея [47].
Современные СУД должны поддерживать различные механизмы классификации и кластеризации. Как правило, наиболее простая (первичная) классификация документов происходит во время регистрации. Далее документы могут быть разбиты на другие (отличные от исходных) классы в соответствии с некоторым критерием. Часто классы документов формируются по запросу с помощью поисковых машин, обрабатывающих запросы пользователей. Такая классификация часто называется виртуальной.
Виртуальная классификация позволяет строить динамические (вычисляемые) классы, зависящие как от запроса пользователя, так и от состояния хранилища документов и их фрагментов (например, для виртуальных документов).
Передовые СУД производят классификацию, формируя кластеры автоматически в момент появления документа в системе независимо от пользователя. Такая автоматическая классификация обычно бывает достаточно размытой, - один документ может сразу попасть в разные классы в соответствии с различными основаниями классификации. Более строгая и точная классификация, конечно же, осуществляется по запросу пользователя, выполняющего какой-либо содержательный анализ совокупности документов.
Обычно в жизненном цикле документа происходит полное и/или частичное изменение значений его атрибутов. Именно значения атрибутов часто влияют на формирование классов и миграцию документов между классами. Изменение значений атрибутов изменяет статус документа, его точку на жизненном цикле (координату в жизненном пространстве).