Выделение текстовых трендов в социальной сети OK

Standard

Выделение текстовых трендов в социальной сети OK. / Малютин, Е.А.; Бугайченко, Д.Ю.; Мишенин, А.Н.

в: ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, Том 13, № 3, 2017, стр. 313-325.

Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование

Harvard

Малютин, ЕА , Бугайченко, ДЮ & Мишенин, АН 2017, 'Выделение текстовых трендов в социальной сети OK', ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, Том. 13, № 3, стр. 313-325. https://doi.org/10.21638/11701/spbu10.2017.308

APA

Малютин, Е. А., Бугайченко, Д. Ю., & Мишенин, А. Н. (2017). Выделение текстовых трендов в социальной сети OK. ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, 13(3), 313-325. https://doi.org/10.21638/11701/spbu10.2017.308

Vancouver

Малютин ЕА , Бугайченко ДЮ , Мишенин АН. Выделение текстовых трендов в социальной сети OK. ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ. 2017;13(3):313-325. https://doi.org/10.21638/11701/spbu10.2017.308

Author

Малютин, Е.А. ; Бугайченко, Д.Ю. ; Мишенин, А.Н. / Выделение текстовых трендов в социальной сети OK. в: ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ. 2017 ; Том 13, № 3. стр. 313-325.

BibTeX

@article{6a9ebd5046f94e6caaf0daceb6af1004,

title = "Выделение текстовых трендов в социальной сети OK",

abstract = "Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.",

keywords = "Big data, Natural language processing, Trend detection, анализ естественного языка, выделение трендов, большие данные",

author = "Е.А. Малютин and Д.Ю. Бугайченко and А.Н. Мишенин",

year = "2017",

doi = "10.21638/11701/spbu10.2017.308",

language = "русский",

volume = "13",

pages = "313--325",

journal = " ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ",

issn = "1811-9905",

publisher = "Издательство Санкт-Петербургского университета",

number = "3",

}

RIS

TY - JOUR

T1 - Выделение текстовых трендов в социальной сети OK

AU - Малютин, Е.А.

AU - Бугайченко, Д.Ю.

AU - Мишенин, А.Н.

PY - 2017

Y1 - 2017

N2 - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.

AB - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.

KW - Big data

KW - Natural language processing

KW - Trend detection

KW - анализ естественного языка

KW - выделение трендов

KW - большие данные

UR - http://www.scopus.com/inward/record.url?scp=85031094259&partnerID=8YFLogxK

U2 - 10.21638/11701/spbu10.2017.308

DO - 10.21638/11701/spbu10.2017.308

M3 - статья

AN - SCOPUS:85031094259

VL - 13

SP - 313

EP - 325

JO - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ

JF - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ

SN - 1811-9905

IS - 3

ER -

ID: 9337791