Классификация и кластеризация документов
Достаточно очевидным является факт, что при поиске в больших информационных массивах можно существенно повысить эффективность поиска путем разбиения всего массива на части, руководствуясь каким-либо критерием разбиения, связанным с поиском, и проводя сначала выбор подходящего класса, а затем уже поиск интересующего нас документа. Классификация документов позволяет сузить область поиска и таким образом не только повысить скорость, но и существенно увеличить точность получения результата. Поэтому техноло-. гии классификации документов всегда отводилась важная роль в системах управления документами.
В теории информационных систем различают два типа классификации. Первый тип является чисто абстрактным, в котором документы как некое формальное множество подразделяется на классы, следуя аксиоматически введенным критериям разбиения. Классификация второго типа построена на эмпирическом анализе конкретной совокупности документов с целью достижения заранее заданной цели.
Первый тип классификации хорошо подходит для библиотечных систем, где документы (книги) классифицируются по тематическим рубрикам, которые, как правило, уже достаточно устойчиво сформировались в процессе длительного исторического развития.
Для учрежденческих документов конечно же такой подход не годится. Здесь большинство документов изначально классифицируется недостаточно корректно, поисковые запросы формулируются неточно (как сейчас любят говорить - "размыто"). Для описания адекватных моделей классификации не имеется четких критериев. Поэтому при внедрении СУД следует обратить особое внимание на создание подходящих для конкретного учреждения эмпирических классификаций документов.
Классики таксономии рекомендуют следующие критерии оценки качества эмпирической классификации:
• классификация должна быть корректно определенной так, чтобы для любого множества объектов получался однозначный результат;
• результаты классификации не должны зависеть от порядка обработки (некий аналог коммутативности);
• классификация должна быть устойчивой (робастной): малые изменения данных не должны сильно влиять на результат классификации;
• классификация не должна зависеть от объема выборки (масштабная независимость);
• классификация должна быть кластеризующей; объекты, обладающие большим сходством, не должны попадать в разные классы.