В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.