Standard

Выделение текстовых трендов в социальной сети OK. / Малютин, Е.А.; Бугайченко, Д.Ю.; Мишенин, А.Н.

In: ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, Vol. 13, No. 3, 2017, p. 313-325.

Research output: Contribution to journalArticlepeer-review

Harvard

Малютин, ЕА, Бугайченко, ДЮ & Мишенин, АН 2017, 'Выделение текстовых трендов в социальной сети OK', ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, vol. 13, no. 3, pp. 313-325. https://doi.org/10.21638/11701/spbu10.2017.308

APA

Малютин, Е. А., Бугайченко, Д. Ю., & Мишенин, А. Н. (2017). Выделение текстовых трендов в социальной сети OK. ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ, 13(3), 313-325. https://doi.org/10.21638/11701/spbu10.2017.308

Vancouver

Малютин ЕА, Бугайченко ДЮ, Мишенин АН. Выделение текстовых трендов в социальной сети OK. ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ. 2017;13(3):313-325. https://doi.org/10.21638/11701/spbu10.2017.308

Author

Малютин, Е.А. ; Бугайченко, Д.Ю. ; Мишенин, А.Н. / Выделение текстовых трендов в социальной сети OK. In: ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. СЕРИЯ 10: ПРИКЛАДНАЯ МАТЕМАТИКА, ИНФОРМАТИКА, ПРОЦЕССЫ УПРАВЛЕНИЯ. 2017 ; Vol. 13, No. 3. pp. 313-325.

BibTeX

@article{6a9ebd5046f94e6caaf0daceb6af1004,
title = "Выделение текстовых трендов в социальной сети OK",
abstract = "Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.",
keywords = "Big data, Natural language processing, Trend detection, анализ естественного языка, выделение трендов, большие данные",
author = "Е.А. Малютин and Д.Ю. Бугайченко and А.Н. Мишенин",
year = "2017",
doi = "10.21638/11701/spbu10.2017.308",
language = "русский",
volume = "13",
pages = "313--325",
journal = " ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ",
issn = "1811-9905",
publisher = "Издательство Санкт-Петербургского университета",
number = "3",

}

RIS

TY - JOUR

T1 - Выделение текстовых трендов в социальной сети OK

AU - Малютин, Е.А.

AU - Бугайченко, Д.Ю.

AU - Мишенин, А.Н.

PY - 2017

Y1 - 2017

N2 - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.

AB - Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой: • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку; • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов; • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени; • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента. Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент: • пакетный компонент, реализованный на основе фреймворка Apache Spark; • потоковый компонент, реализованный на основе Apache Samza; • mini-batch-компонент, реализованный на основе Spark Streaming. В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.

KW - Big data

KW - Natural language processing

KW - Trend detection

KW - анализ естественного языка

KW - выделение трендов

KW - большие данные

UR - http://www.scopus.com/inward/record.url?scp=85031094259&partnerID=8YFLogxK

U2 - 10.21638/11701/spbu10.2017.308

DO - 10.21638/11701/spbu10.2017.308

M3 - статья

AN - SCOPUS:85031094259

VL - 13

SP - 313

EP - 325

JO - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ

JF - ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. ПРИКЛАДНАЯ МАТЕМАТИКА. ИНФОРМАТИКА. ПРОЦЕССЫ УПРАВЛЕНИЯ

SN - 1811-9905

IS - 3

ER -

ID: 9337791