Standard

Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. / Андреева, Дарья; Митрофанова, Ольга Александровна.

Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. ed. / И.С. Николаев. СПб. : Издательство Санкт-Петербургского университета, 2019. p. 141-157.

Research output: Chapter in Book/Report/Conference proceedingArticle in an anthologyResearchpeer-review

Harvard

Андреева, Д & Митрофанова, ОА 2019, Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. in ИС Николаев (ed.), Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. Издательство Санкт-Петербургского университета, СПб., pp. 141-157.

APA

Андреева, Д., & Митрофанова, О. А. (2019). Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. In И. С. Николаев (Ed.), Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13 (pp. 141-157). Издательство Санкт-Петербургского университета.

Vancouver

Андреева Д, Митрофанова ОА. Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. In Николаев ИС, editor, Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. СПб.: Издательство Санкт-Петербургского университета. 2019. p. 141-157

Author

Андреева, Дарья ; Митрофанова, Ольга Александровна. / Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций. Структурная и прикладная лингвистика: Межвузовский сборник. Выпуск 13. editor / И.С. Николаев. СПб. : Издательство Санкт-Петербургского университета, 2019. pp. 141-157

BibTeX

@inbook{d40bc09976f64e5aa06c1e85ad1c331f,
title = "Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций",
abstract = "В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры. ",
author = "Дарья Андреева and Митрофанова, {Ольга Александровна}",
year = "2019",
language = "русский",
pages = "141--157",
editor = "Николаев, {И.С. }",
booktitle = "Структурная и прикладная лингвистика",
publisher = "Издательство Санкт-Петербургского университета",
address = "Российская Федерация",

}

RIS

TY - CHAP

T1 - Эксперименты по кластеризации русскоязычных новостных текстов на основе списков лексических конструкций

AU - Андреева, Дарья

AU - Митрофанова, Ольга Александровна

PY - 2019

Y1 - 2019

N2 - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.

AB - В статье представлены результаты экспериментов по кластеризации новостных сообщений из русскоязычного корпуса текстов. Эксперименты производились на корпусе новостных сообщений, собранных на основе данных из трех целевых рубрик («Политика», «Вести. Наука», «HiTech. Интернет») интернет-портала «Вести.Ru». В ходе исследования была проверена гипотеза о возможности оптимизации процедуры кластеризации путем перехода от кластеризации полных текстов к обработке их представлений в виде списков лексических конструкциий. С помощью алгоритма автоматического выделения ключевых выражений RAKE из каждого текста корпуса извлекались ключевые лексические конструкции. Затем были проведены процедуры кластеризации текстов и наборов их лексических конструкций методами K-means++ и агломеративной иерархической кластеризации. Результаты подстверждают возможность использования семантической компрессии документов для их качественной кластеризации, что позволяет сократить объем обрабатываемой текстовой информации и снизить трудоемкость процедуры.

UR - https://publishing.spbu.ru/catalog/novinki/strukturnaya_i_prikladnaya_lingvistika_vyp_13_1/

M3 - статья в сборнике

SP - 141

EP - 157

BT - Структурная и прикладная лингвистика

A2 - Николаев, И.С.

PB - Издательство Санкт-Петербургского университета

CY - СПб.

ER -

ID: 62400654