Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
Выделение текстовых трендов в социальной сети OK. / Малютин, Е.А.; Бугайченко, Д.Ю.; Мишенин, А.Н.
в: ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, Том 13, № 3, 2017, стр. 313-325.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - Выделение текстовых трендов в социальной сети OK
AU - Малютин, Е.А.
AU - Бугайченко, Д.Ю.
AU - Мишенин, А.Н.
PY - 2017
Y1 - 2017
N2 - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.
AB - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.
KW - Big data
KW - Natural language processing
KW - Trend detection
KW - анализ естественного языка
KW - выделение трендов
KW - большие данные
UR - http://www.scopus.com/inward/record.url?scp=85031094259&partnerID=8YFLogxK
U2 - 10.21638/11701/spbu10.2017.308
DO - 10.21638/11701/spbu10.2017.308
M3 - статья
AN - SCOPUS:85031094259
VL - 13
SP - 313
EP - 325
JO - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ
JF - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ
SN - 1811-9905
IS - 3
ER -
ID: 9337791