Description

Научная проблема, на решение которой направлен проект.

Основной научной проблемой, лежащей в основе проекта является необходимость разработки новых методов анализа данных, в частности, новых методов машинного обучения и математической оптимизации, и их применение к современным экономическим проблемам. В частности, в проекте рассматривается разработка новых методов сетевого анализа и сетевой оптимизации, и связанных методов машинного обучения, а также новые методы моделирования производственного потенциала фирм. Такие методы могут применяться к данным, представленным в форме сетей; в частности, социальных сетей, сформированных из отношений между людьми или персонажами в компьютерных играх, или сетей дорог.

Данные методы могут как объяснять свойства данных и информировать о том, как улучшать эти свойства, что важно, например, для анализа сетей предпринимательства и увеличения предпринимательской активности, или для обнаружения эффективных команд в онлайн играх, так и для дизайна новых сетей, что важно, например, для построения дорожных сетей в лесах. Помимо методов сетевой оптимизации, неотъемлемой частью анализа подобного рода данных являются методы машинного обучения, которые могут быть использованы для анализа текстов и изображений в социальных сетях (например для поиска зависимостей между “настроением” текста и предпринимательской активностью в регионе) и смежных задач, например, анализ цен на объекты искусства. Очень часто имеющиеся массивы данных, представленные в данных областях, являются очень большими и требуют специальных алгоритмов для их обработки; одной из подзадач данного проекта является поиск эффективных алгоритмов для описанных задач.

Важной научной задачей настоящего исследования является разработка системы экономико-математических методов анализа эффективности производства, в условиях сложных и продолжительных производственных процессов с эндогенными факторами производства. Основным предметом исследования в таких задачах являются модели производственного потенциала (МПП), то есть такие модели, которые используют данные о затратах и выпуске для оценки относительной производительности и технологической эффективности отдельных производств, компаний, стран и регионов и для анализа факторов, способных ее повысить.

Актуальность проблемы, научная значимость решения проблемы

Актуальность предлагаемых к разработке методов предопределяется возможностью использовать богатство постоянно накапливаемого различного статистического материала для более точного анализа и прогноза как экономической и финансовой деятельности различных секторов экономики, в первую очередь, предпринимательства, поведенческих характеристик сообществ игроков в играх, а также дизайна оптимальных структур (например, дорожных сетей). Научные результаты, предлагаемые к разработке, находятся на острие методологических исследований в области сетевого анализа и машинного обучения.

Аналогичным образом, производственные предприятия накапливают большой объем статистического материала о затратах, выпуске и внешних факторах производства, который может быть использован для более точного анализа производственного потенциала в той или иной отрасли и для повышения технологической эффективности и обеспечения экономического роста. Достаточно большое внимание со стороны бизнес-сообщества и исследователей уделяется оценкам производственного потенциала в конкретных отраслях, например в энергетике (Л. Е. Варшавский. Методы и модели прогнозирования показателей транспорта топливно-энергетических ресурсов (на примере газопроводного транспорта) //Экономика и математические методы, 1986, том 22, №6, с.1052-1063; А.А. Афанасьев. Прогнозирование добычи природного газа ПАО «Газпром» и его производственного потенциала в условиях внешнеэкономических ограничений //Экономика и математические методы, 2017, том 53, №4, с.26-35). В рамках апробации результатов исследования предполагается изучить технологическую эффективность разрабатываемых месторождений нефти и природного газа на территории Российской Федерации, используя модели производственного потенциала и уникальные данные, собранные Всероссийским нефтяным научно-исследовательским геологоразведочным институтом и представленные в Государственных балансах полезных ископаемых.

С практической точки зрения, актуальность проекта, предопределяется популярностью пакета Stata и языков программирования Python и R. Stata разрабатывается компанией StataCorp с 1985 года и является одним из индустриальных стандартов для обработки экономических данных и проведения экономико-статистических расчетов. Однако, даже последняя версия этого продукта не включает имплементацию оценок МПП и работу с сетями, которые будут предложены в рамках данного проекта. Помимо Stata, большое количество программных модулей и пакетов, реализующих статистические методы, имплементированы на языках Python и R. Кроме этого, на Python имплементированы популярные библиотеки алгоритмов машинного обучения (такие как scikit-learn), широко используемые в индустрии. Однако, методы оценки рассматриваемых в проекте моделей пока не полностью используют преимущества данных языков программирования.

Реализация разрабатываемых методов в программной среде Stata и на языках Python и R позволит не только действенно изучить эффективность этих методов, но и предоставить широкому международному научному сообществу соответствующий инструментарий для применения в прикладной работе.
Подтверждением важности предполагаемых в рамках проекта исследований могут также служить недавние приглашения основных исполнителей проекта для выступления и организации сессий по его тематике на престижных международных конференциях, в частности на ежегодных встречах Международного Института Исследования Операций и Наук Управления (Institute for Operations Research and the Management Sciences, INFORMS), ежегодных конференциях по вычислительной и финансовой эконометрике (Computational and Financial Econometrics-CFE) и ежегодных встречах международного симпозиума прогнозистов (International Symposium of Forecasters ISF).

Конкретная задача в рамках проблемы, на решение которой направлен проект, ее масштаб.

Задача 1. Разработка математических и статистических моделей для сетевых процессов и социальных сетей, и их применение к анализу сетей построенных на основе онлайн-поведения индивидуумов. В частности, анализ сетей предпринимателей и сетевой анализ поведения игроков и персонажей в компьютерных играх.

Целью данной задачи является разработка новых математических моделей сетевых процессов, в частности, разработка методов машинного обучения, связывающих характеристики сети и какие-либо внешние переменные. Одним из применений этих методов является анализ характеристик сети предпринимателей в регионах России, построенных на основе открытых данных из социальной сети VK.com. В данном случае, узлами сети являются предпринимательские сообщества. Существует несколько способов построения связей между участниками: например, два узла могут быть связаны ребром в случае явный ссылки из сообщества на сообщество в социальной сети. Также, можно рассмотреть взвешенную сеть, весом ребра которой является количество пользователей состоящих в группах соответствующих концам ребра. Анализ данной сети и сопоставление ее характеристик (таких как плотность сети, степени узлов и различные показатели центральности) со статистическими характеристиками бизнеса в регионах может дать информацию о том, как улучшить предпринимательские индексы в регионах.

Помимо этого, в рамках данной задачи планируется рассмотреть другие метрики активности предпринимателей в социальных сетях и их связь с финансовыми показателями региона. В частности, планируется рассмотреть “настроение” комментариев, темы, упоминаемые в комментариях, и атрибуты картинок, используемые в социальных сетях. Подобные характеристики можно извлечь из данных с использованием современных нейронных сетей.

Методы сетевого анализа широко применяются в традиционных спортивных играх, таких как, например, футбол и баскетбол. Анализ социальных сетей, построенных из игроков сетей и их взаимоотношений (например, построенных на основе совместного участия в игре) может позволить предсказать, какие именно команды будут эффективны в том или ином соревновании, и как построить такие команды. Также, подобный анализ может дать информацию о результате игры.

В настоящее время сетевые компьютерные игры и кибер-спорт получили широкое распространение. Нередко, отечественные команды достигают значительных успехов на международных соревнованиях.
Помимо сетей игроков, можно рассматривать сети из персонажей онлайн игр, построенные на основе их взаимодействия (например, покупки\продажи предметов на специальных игровых рынках). Анализ подобных сетей может выявить потенциальных нарушителей игровых правил.

В свою очередь, на финансовых рынках наблюдаются сети влияния публичных трейдеров и аналитиков на общее настроение, особенно на малоликвидных инструментах. Построение мультиагентных систем, имитирующих поведение отдельных видов участников торгов, помогает оценить соответствующий эффект на цену актива при конкретном составе участников торгов.

Задача 2. Оптимизация построения дорог на незанятых инфраструктурой территориях.

Планирование размещения сети лесных автомобильных дорог является важной задачей, которая может быть сформулирована как задача сетевой оптимизации, целью которой является поиск в сети подграфа с минимальной стоимостью строительства и стоимостью транспортировки лесных грузов по нему со всех источников до стока. В данном случае, результирующим подграфом является дорожная сеть, соединяющая все источники с одним или несколькими стоками, а сетью, в которой происходит поиск - набор потенциальных линейных участков, где может быть спроектирована дорога, являющихся ребрами графа. Важным свойством построенной сети является ее связность, которая заключается в объединении в единую дорожную сеть всех значимых вершин - источников и стока (-ов).

Планирование размещения сети лесных автомобильных дорог может учитывать различные ограничения:
- необходимость проектирования дорог к определенным участкам сети,
- накладываемые существующей сетью автомобильных дорог, а также сетями водного и железнодорожного транспорта,
- гарантирующие наличие одновременно нескольких дорог к определенным участкам (для повышения устойчивости сети),
- возможное получение в подграфе «перекрестков» - точек Штейнера (при формулировке данной задачи как варианта задачи Штейнера на графах и её решения методами целочисленного программирования), и пр.

Помимо этого, в целевой функции могут учитываться не только затраты на строительство участков дорожной сети, но и транспортные расходы.
Данные задачи традиционно решаются с помощью целочисленного программирования, но ввиду возможной высокой сложности оптимизационных проблем, в данной задаче также планируется разрабатывать эвристические алгоритмы, в том числе основанные на иерархическом подходе.

Задача 3. Разработка и апробация нового поколения моделирования производственного потенциала (МПП), позволяющих решить следующие фундаментальные задачи в области экономико-математического моделирования производственного потенциала:

Задача 3.1. Разработка непараметрических методов оценки МПП, устойчивых к неверным спецификациям функциональной формы, описывающей производственный процесс;

Задача 3.2. Разработка комплекса методов оценки МПП, устойчивых к эндогенности факторов производства, то есть ситуации, когда выбор уровня производственных затрат предопределяется текущим состоянием технологической эффективности производства и внешними условиями, в которых осуществляется производственный процесс;

Задача 3.3. Разработка системы методов оценки МПП, оптимизированных для использования на панельных данных, то есть способных учитывать временные тренды и ненаблюдаемые характеристики, свойственные продолжительным производственным процессам.

Научная новизна поставленной задачи, обоснование достижимости решения поставленной задачи и возможности получения запланированных результатов.

Признание научной новизны и оригинальности предлагаемой постановки проблемы и методологии ее исследования можно найти в работах известных специалистов в области исследования операций и машинного обучения. Статьи описывающие новые методы анализа сетей, в частности влияние позиции фирм в сети или информации из социальной страницы фирмы на ее экономические показатели часто появляются в ведущих журналах. Однако, существующие исследования рассматривают лишь незначительное количество сетевых характеристик. Например, не рассматриваются различные показатели центральности, PageRank, k-core и другие методы, широко применяющиеся в сетевой науке. Недавние статьи участников проекта (O. Shirokikh, G. Pastukhov, A. Semenov, S. Butenko, A. Veremyev, E. L. Pasiliao, V. Boginski, Networks of Causal Relationships in the U.S. Stock Market, принята к печати, Dependence Modeling, 2022) показали важность этих метрик в анализе финансовых сетей, однако еще не применялись к сетям предпринимателей. Кроме того, методы сетевого анализа имеют большой потенциал в отношении анализа сетей
игроков компьютерных игр.

Задачи прикладной оптимизации, связанные с лесными массивами также освещаются в ведущих журналах, таких как Mathematical Programming (Rönnqvist, M. Optimization in forestry. // Math. Program., Ser. B 97, 267–284 (2003). https://doi.org/10.1007/s10107-003-0444-0). Эти исследования рассматривают лишь стандартные задачи оптимизации построение дорожного покрытия, и не рассматривают задачи устойчивости дорожной сети, такие, например, как наличие нескольких путей между важными точками дороги.

Кроме того, участниками проекта были предложены новые эвристические алгоритмы для решения оптимизационной многомерной задачи о назначениях (A. Kammerdiner, A. Semenov, E.L. Pasiliao, Multidimensional Assignment Problem for multipartite entity resolution, Journal of Global Optimization, принята к печати, 2022.), которые могут применяться и к задачам о построении дорог.

Современное состояние исследований по данной проблеме

Задача 1.

Статья (Songcui Hu, Qian (Cecilia) Gu, Jun Xia (2021) Problemistic Search of the Embedded Firm: The Joint Effects of Performance Feedback and Network Positions on Venture Capital Firms’ Risk Taking // Organization Science) рассматривает сети, узлами которых являются инвестиционные компании, связь между которыми строится в случае совместного инвестирования в компании-клиенты. В статье рассматривается ряд гипотез о связи позиции инвестиционной компании в сети (выраженной различными метриками центральности, такими как центральность Боначича и и “брокеражом”, представленным в (Gould, J. and Fernandez, J. 1989. Structures of mediation: A formal approach to brokerage in transaction networks // Sociological Methodology :89-126), что является вариантом центральности посредничества) на ее финансовые показатели и места в рейтингах инвесторов. В частности, в статье показывается, что инвестиции в низко-рисковые предприятия связаны с низкой метрикой центральности Боначича.

Схожий подход построения сети предлагается также в (Sorenson, O., & Stuart, T. E. (2008). Bringing the context back in: Settings and the search for syndicate partners in venture capital investment networks. Administrative Science Quarterly, 53(2): 266–294) Статья (Tang, Tanya, Eric Fang and William J. Qualls. “More Is Not Necessarily Better: An Absorptive Capacity Perspective on Network Effects in Open Source Software Development Communities.” MIS Q. 44 (2020)) рассматривает социальные сети построенные из проектов на сайте SourceForge, где два проекта являются связанными, если в них состоит один и тот же разработчик (также, рассматриваются сети из разработчиков). Авторы находят линейную связь взаимодействий показателей центральности с характеристиками навыком пользователей с характеристиками проекта (такими как активность разработчиков и др.). Помимо метрик центральности рассматриваются некоторые другие переменные, описывающие проект. Построение сети таким способом мотивировано передачей знаний из одного проекта в другой.

Схожие принципы применяются в статьях анализирующих сети из ученых, например (Myra Mohnen (2021) Stars and Brokers: Knowledge Spillovers Among Medical Scientists. Management Science). Статья (Wang, Shuting (Ada); Greenwood, Brad N.; and Pavlou, Paul. 2020. "Tempting Fate: Social Media Posts, Unfollowing, and Long-Term Sales," MIS Quarterly, (44:4) pp.2521-1571) рассматривает связь между сообщениями фирмы в социальных медиа и ее продажами, статья находит, что частые сообщения в краткосрочной перспективе увеличивают продажи, но в долгосрочной перспективе ведут к “отпискам” пользователей от страницы фирмы. Статья (Sunghun Chung, Animesh Animesh, Kunsoo Han, Alain Pinsonneault (2020) Financial Returns to Firms’ Communication Actions on Firm-Initiated Social Media: Evidence from Facebook Business Pages. Information Systems Research 31(1)) описывает влияние активности фирмы в социальной сети, выраженное сообщениями, и ответами фирмы на сообщения клиентов (в том числе скоростью ответа) на ее производительность, рассчитанную при помощи модели Fama–French. Авторы находят положительную связь между ответами фирмы на сообщения и ее финансовыми показателями. Статья (Abigail Z. Jacobs , Duncan J. Watts (2021) A Large-Scale Comparative Study of Informal Social Networks in Firms. Management Science 67(9):5489-5509) анализирует сеть фирм, построенную на основе коммуникации по электронной почте между их сотрудниками (полученной в анонимизированном виде с мейл-сервера), авторы не находят связи между позицией фирмы в сети и такими характеристиками как ее возраст или сектор, что противоречит теории организации фирм.

Статья (Kunpeng Zhang, Wendy Moe (2021) Measuring Brand Favorability Using Large-Scale Social Media Data. Information Systems Research) предлагает новый метод оценки благосклонности пользователей к бренду, на основе вероятностной модели, построенной на основе взаимодействия пользователей и бренда в социальной сети.

Схожие идеи часто применяются в анализе социальных сетей из игроков в различные спортивные а также онлайн игры. Авторы Ievoli, R., Palazzo, L. and Ragozini, G., 2021. On the use of passing network indicators to predict football outcomes. Knowledge-Based Systems, 222, p.106997 рассматривают влияние различных характеристик сети, построенной между игроками в футбол на основе пасов на результат игры. В статье авторы показывают зависимость удержания мяча, количества передачей и взаимодействия между друг другом с победой команды в футбольном матче.

Сети передачи и их структурные особенности могут использоваться для оценки стиля игры с точки зрения поведения передачи, анализа и количественной оценки взаимодействий между игроками. Также анализ сетей передач показывает стиль игры отдельных команд в зависимости от времени. Затем происходит моделирование вероятности победы в игре с помощью четырех моделей машинного обучения, включая сетевые индикаторы в качестве независимых переменных. По результатам их тестирования и анализа - предложенный подход дает большую эффективность и более точный результат матча в сравнении с бейзлайнами. Авторы (Mora-Cantallops, M., & Sicilia, M. Á. (2018). Team Efficiency and Network Structure: The Case of Professional League of Legends. Social Networks, 58, 105-115) рассматривают подробный анализ сети из игроков в League of Legends.

Задача 2.

Современные подходы к решению проблемы оптимизации размещения сети лесовозных автомобильных дорог основываются на применении методов исследования операций, линейного программирования, эвристических
алгоритмов и обширном применении ГИС технологий. В своей монографии Тан (Tan) одним из первых применил возможности ГИС технологий для автоматизированного проектирования сети лесовозных автомобильных дорог. Оценка объекта дорожной сети велась по таким показателям,как рельеф местности, запас древесины на выделах и др. Критерием оптимальности выступило отношение прибыли от освоения лесного участка к затратам на освоение и строительство дорожной сети.

В работе авторов Андерсена и Нельсона (Anderson & Nelson) в пространственных ограничениях учитывалось вертикальное примыкание (углы наклона) потенциальных дорог: дороги с уклоном более 15% были запрещены, а начиная с уклона, равного 5%, стоимость строительства участка дорожной сети умножалась на коэффициент (>1), что запрещало строительство дорог с сильным уклоном и делало строительство дорог с допустимым, но нежелательным уклоном менее «привлекательным». Другим видом пространственных ограничений, представленных в данной работе, было ограничение на примыкание дорог к друг другу: было запрещено примыкание участков дорог к друг другу под острым углом. В данной работе авторы применили разработанный ими способ созданий графа и решения задачи оптимизации размещения сети лесовозных автомобильных дорог, основанный на последовательном применении алгоритма кратчайшего пути.

Вейнтрауб (Weintraub), Эпштейн (Epstein) и др. разработали методы и средства решения задачи одновременного размещения сети лесовозных автомобильных дорог и планирования лесосечных работ. Решение этой задачи требовало моделирования следующих решений:
1) какие технологии использовать для разработки лесосек (канатная трелевка, трелевка скиддером);
2) где расположить склады;
3) как распределить территории между канатно-трелевочными установками;
4) какие дороги строить;
5) какой объем древесины заготовить и вывезти.

Для решения задачи оптимизации планирования размещения сети лесовозных автомобильных дорог авторами использовался интегрированный подход. В качестве средства решения задачи была разработана программа PLANEX.
В следующей работе Эпштейн (Epstein) более точно и детально описал формулировку предложенной ранее модели:
использовалось дробно-целочисленное линейное программирование;
валентность вершин графа равнялась 16;
учитывались ограничения по горизонтальному примыканию дорог, в частности допустимые радиусы кривых.

В модели минимизировались затраты на строительство дорог, монтаж оборудования, затраты на вырубку и транспортировку древесины. Следовательно, для решения задачи использовался интегрированный подход. Объем данных включал в себя около 75 000 растровых ячеек с лесом, 400 000 потенциальных участков дорог, около 300 потенциальных складов для установки канатно-треловочных систем и около 5000 для применения колесной техники. Алгоритм для решения этой задачи был схож с эвристическим методом нахождения «дерева Штейнера».

В своей диссертации Штюкельбергер (Stuckelberger) решал задачу автоматизированного планирования сети дорог между заданными точками с использованием геоданных высокогорных районов Швейцарии. Автор в своей работе предложил ограничение по вертикальному и горизонтальному примыканию высокогорных дорог с учетом требований безопасности для груженого и порожнего хода лесовоза. Также в своей работе автор моделировал проведение земляных работ для строительства дорожной сети. В работе представлена методика расчета стоимости строительства и содержания дорог. Стоит отметить, что постановка задачи размещения сети лесовозных автомобильных дорог была сформулирована, как вариант задачи Штейнера на графах. Валентность вершин графа в работе автора составляла от 8 до 48 в разных вариантах решения. Использование 48-и связей между вершинами графа позволило снизить затраты на строительство дорог в гористой местности на 30% по сравнению с 8-ью связями. Для решения поставленной задачи Штюкельбергером был разработан собственный эвристический алгоритм, основанный на использовании алгоритма кратчайшего пути и алгоритма Прима, получении минимального покрывающего дерева и дерева Штейнера. Автором использовалась многокритериальная оптимизация: вес ребра графа рассчитывался с учетом 4-х факторов: стоимость строительства, выручка от лесозаготовки, негативное влияние на болота, негативное влияние на фауну. Штюкельбергер использовал иерархический подход к решению задачи оптимизации размещения сети лесовозных автомобильных дорог.

В своей работе Сешнс (Sessions) предложил разработанный сетевой алгоритм для выбора дорог-кандидатов, которые войдут в решение. Сам алгоритм решения разделен на три этапа:
1) определение дорог-кандидатов на цифровой модели рельефа и определение для каждого участка своей стоимости.
2) выбор такого набора дорог-кандидатов, при которой сумма затрат на строительство, содержание и транспортировку будет минимальной.
3) отображение результатов анализа на цифровой модели рельефа или контурной карте.

Для решения этой задачи был выбран эвристический алгоритм, разработанный Сешнсом и примененным в программе NETWORK II. Этот алгоритм итеративно решает проблему поэтапного нахождения кратчайшего пути, при каждой итерации постоянные затраты трансформируются в переменные транспортные затраты.

В работе Надериализаде (Naderializadeh), посвященной формулировке интегрированной модели оптимизации размещения сети лесовозных автомобильных дорог и плана лесосечных работ. Автор провел исследования используемых ранее подходов и представил в своей модели следующие усовершенствования по сравнению с ранними подходами:
1) каждая дорога-кандидат в модели представлена двумя ориентированными ребрами;
2) использовались ограничения формулировки «клик» (через каждую вершину графа в рамках одного маршрута может проходить только одна дорога).
Валентность вершин графа равняется 8. Размер растра составлял 50 м. на 50 м. Целевая функция составляла максимизацию прибыли от лесозаготовки за вычетом затрат на лесозаготовку, строительство дорог и транспортировку древесины. Модель была сформулирована с помощью аппарата линейного программирования, поиск решения осуществлялся с помощью коммерческого решателя CPLEX. Для построения дорог кандидатов использовался модифицированный алгоритм поиска кратчайшего пути.

В своей следующей работе Надериализаде (Naderializadeh) дополнил, разработанную ранее модель:
1) валентность вершин графа увеличилась с 8 до 16;
2) все дороги-кандидаты были разделены на две группы:
2.1) участки дорожной сети, через которые будет проходить больше одного маршрута;
2.2) участки дорожной сети, через которые будет проходить только один маршрут. Модель тестировалась на двух наборах данных, отличающихся плотностью размещения дорог-кандидатов (dense set & sparse set). Это привело к появлению псевдоточек Штейнера. Модель была сформулирована с помощью аппарата линейного программирования, поиск решения осуществлялся с помощью коммерческого решателя CPLEX методом ветвей и границ. Для построения дорог кандидатов использовался модифицированный алгоритм поиска кратчайшего пути. По результатам проведенного тестирования автор пришел к выводу, что использование в качестве исходных данных более плотного графа потенциальной дорожной сети приводит к уменьшению суммарной стоимости строительства и транспортировки.
Ведущие исследователи применения методов исследования операций в лесной отрасли – Микаэл Роннквист и Ганс Рудольф Хейнеман в своих работах [Ronnqvist et al., 2015; Heinemann, 2017] подняли вопросы совершенствования
методов оптимизации размещения лесных дорожных сетей: учет затрат на строительство, содержание и транспортировку, применение точных методов поиска решения, использования больших наборов данных, наилучших
способов цифрового представления рельефа местности, и др.
Tan, J., 2000. Application of Dynamic Programming to Optimum Location of Forest Road. Journal of Forest Engineering, 11:85-89
Anderson, A.E., Nelson, J. Projecting vector-based road networks with a shortest path algorithm // Canadian Journal of Forest Research. – 2004 – № 34 – 1444-1457 pp. – DOI: 10.1139/x04-030
Epstein, R. PLANEX: A system to identify landing locations and access // Epstein, R., Weintraub, A., Sessions, j. et el // Proceedings of the International Mountain Logging and 11th Pacific Northwest Skyline Symposium. – 2001. – 190-193 pp.
A combinatorial heuristic approach for solving real-size machinery location and road design problems in forestry planning / Epstein, R., Weintraub, A., Sapunar, P. et al. // Annals of Operations Research – 2006. – № 54(6) – 1017-1027 pp.
Stückelberger, J.A. 2007. A weighted-graph optimization approach for automatic location of forest road networks, ETH. Zürich.
Diss Nr 17366 – Eidgenössische Technische Hochschule ETH Zürich – Zürich. – 127 p.
Sessions, J. and Sessions, J. B. 1991. Scheduling and Network Analysis Program (SNAP II): User's Guide. Department of Forest Engineering, Oregon State University, Corvallis, OR
Naderlializade, N., Crowe, K., Formulating the integrated forest harvest‑scheduling model to reduce the cost of the road‑networks // Operation Research Int Journal. – 2018 – № 11 – 44-68 pp.
Naderializadeh, N., Crowe, K., Pulkki, R. On the Importance of Integrating Transportation Costs into the Tactical Forest Harvest Scheduling Model // Croatian Journal of Forest Engineering. – 2020 – Vol. 41 – 10 p. – DOI: 10.5552/crojfe.2020.624
Rönnqvist, M., et al. Operations Research challenges in forestry: 33 open problems // Ann Oper Res (2015) 232:11-40. DOI10.1007/s10479-015-1907-4
Heinimann, H.R. Forest Road Network and Transportation Engineering – State and Perspectives // Croatian Journal of Forest Engineering – 2017. – № 38(2) – 155-157 pp.

Задача 3

В наиболее базовой форме, модели производственного потенциала используются с конца 70-х годов прошлого века. Среди тысяч публикаций на эту тему можно выделить следующие работы:
1. Aigner D., Lovell C.K., Schmidt P. Formulation and estimation of stochastic frontier production function models // Journal of Econometrics, 1977, Vol.6, pp. 21-37.
2. Jondrow J., Lovell C. K., Materov I. S., Schmidt, P. On the estimation of technical inefficiency in the stochastic frontier production function model // Journal of econometrics. 1982, Vol.19(2-3), pp. 233-238.
3. Caudill S.B., Ford J.M. Biases in Frontier Estimation Due to Heteroskedasticity // Economics Letters. 1993, Vol.41, pp. 17-20.
4. Caudill S.B., Ford J.M., Gropper D.M. Frontier Estimation and Firm-Specific Inefficiency Measures in the Presence of Heteroskedasticity // Journal of Business and Economic Statistics, 1995, Vol.13, pp. 105-111.
5. Reifschneider D., Stevenson R. Systematic Departures from the Frontier: A Framework for the Analysis of Firm Inefficiency // International Economic Review, 1991, Vol.32, pp. 715-723.

Подавляющее большинство работ, посвященных МПП, в том числе наиболее современные, используют строгие предположения об определенной функциональной форме, например, Кобба-Дугласа. Это означает, что если производство даже незначительно отклоняется от этой спецификации, то все оценки могут оказаться неверны.

Более того, все работы, за исключением единиц, заранее предполагают нечто невозможное на практике, а именно, что факторы производства задаются вне модели. Другими словами, они выбираются вне зависимости от состояния производства и уровня эффективности (то есть являются экзогенными). В случае если предполагается наличие внешних факторов, влияющих на производство (как, к примеру, в статье Reifschneider D., Stevenson R. Systematic Departures from the Frontier: A Framework for the Analysis of Firm Inefficiency // International Economic Review, 1991, Vol.32, pp. 715-723), эти факторы тоже, как правило, считаются экзогенными.

При данном состоянии современных исследований на мировом уровне, ожидаемые результаты нашей работы имеют явное преимущество. Во-первых, оценки, устойчивые к эндогенности факторов производства, как правило, значительно отличаются от традиционных оценок как по знаку, так и по абсолютному значению (см., например, Amsler, Prokhorov, Schmidt Endogeneity in Stochastic Frontier Models // Journal of Econometrics, 2016, Vol.190(2), pp. 280-288). То есть, предлагаемые к разработке методы позволять увеличить эффективность производства. В то же время, предлагаемые методы позволяют протестировать гипотезу об экзогенности факторов производства. В подавляющем большинстве случаев, данную гипотезу приходится отклонить.
Во-вторых, наши гибкие непараметрические оценки будут устойчивы к отклонениям от предположений о конкретной функциональной форме зависимости между затратами и выпуском.

Давно известно, что эффективность производства во многом определяется средой (экономической, экологической, правовой и т.д.) и что участники производственного процесса взаимодействуют со средой, что накладывает ограничения на производительность (см., например, Coelli T., Perelman S., Romano E. Accounting for environmental influences in stochastic frontier models: with application to international airlines // Journal of Productivity Analysis, 1999, Vol.11, pp. 251-273; Cavallo L., Rossi S. Do environmental variables affect the performance and technical efficiency of the European banking systems? A parametric analysis using the stochastic frontier approach // The European Journal of Finance, 2002, Vol. 8, pp.123-146).

Предположение об экзогенности факторов производств, уровня технологической эффективности и характеристик среды является слишком оптимистичным. Многочисленные микроэкономические модели предоставляют теоретическое обоснование тому, что при решении задачи оптимизации (прибыли или издержек), фирмы учитывают множественные внешние и внутренние факторы, одновременно влияющие на выпуск, то есть, являющиеся эндогенными (см., например, Atkinson S.E., Cornwell C. Estimation of Output and Input Technical Efficiency Using a Flexible Functional Form and Panel Data // International Economic Review, 1994, Vol. 35, pp. 245-255; Kumbhakar S.C., Tsionas E.G. Measuring Technical and Allocative Inefficiency in the Translog Cost System: A Bayesian Approach // Journal of Econometrics, 2005, Vol.126, pp. 355-384; Kumbhakar S.C., Tsionas E.G. Stochastic Error Specification in Primal and Dual Production Systems // Journal of Applied Econometrics, 2009, Vol. 26, pp. 270-297.)

В то же время, традиционные предположения о функциональной форме зависимости выпуска и затрат не отражают реалий сложного современного производства, в котором влияние отдельного фактора производства не может быть априори описано одной функциональной формой. На текущий момент, эта проблема решается с помощью так называемого оболочечного анализа данных (см., например, Olesen O., Petersen N. Stochastic Data Envelopment Analysis—A review // European Journal of Operational Research, 2016, Vol. 251, pp. 2-21). Однако, этот подход является полностью непараметрическим и не может полноценно использоваться для составления прогнозов и тестирования гипотез. Таким образом, ожидаемые результаты нашей работы, позволяющие отказаться от указанных нереалистичных предположений о производстве, имеют явную новизну по отношению к уже имеющимся в мировой практике моделям и методам.

Рассматривая модели оценки производственного потенциала в РФ, можно сделать вывод о том, что банковский и энергетический сектора привлекают наибольшее внимание российских исследователей. Однако, использование моделей оценки производственного потенциала позволяет проводить анализ не только факторов отраслевого, но и регионального и национального развития (см., например, В. Л. Макаров, С. А. Айвазян, М. Ю. Афанасьев, А. Р. Бахтизин, А. М. Нанавян. Оценка эффективности регионов РФ с учетом интеллектуального капитала, характеристик готовности к инновациям, уровня благосостояния и качества жизни населения //Экономика региона, 2014, с.9-30; А.А. Афанасьев, О.С. Пономарева.

Производственная функция народного хозяйства России в 1990–2012 гг. // Экономика и математические методы, 2014, том 50, №4, с.21-23 ). Так, например, сравнение реального и граничного производственного потенциала региона дает возможность оценить уровень эффективности отдельных регионов РФ.

Предпосылка об экзогенности факторов производства и уровня технологической эффективности является неотъемлемой частью существующих исследований, являясь, в то же время, слишком оптимистичной. Иллюстрируя это утверждение на примере банковской индустрии, такие параметры моделей, как риск операций, объемы банковских продуктов и цены ресурсов традиционно задаются экзогенно (см., например, В. Ю. Белоусова. Эффективность издержек однородных российских коммерческих банков: обзор проблемы и новые результаты // Экономический журнал ВШЭ, 2009, с. 489-519).

Следуя тому же принципу, в энергетической отрасли экзогенно может быть заданы такие параметры, как объем грузооборота, например, в газомоторном транспорте или объем добычи в нефтегазовой индустрии (см., например, Л. Е.Варшавский. Методы и модели прогнозирования показателей транспорта топливно-энергетических ресурсов (на примере газопроводного транспорта) //Экономика и математические методы, 1986, том 22, №6, с.1052-1063). Таким образом, при учете влияния внешних и внутренних факторов на выпуск, их принимают как экзогенные, что не отражает фактической эндогенной природы этих факторов.

Исследование энергетической отрасли РФ с помощью моделей оценки производственного потенциала может внести существенный вклад в освоение, оптимизацию и развитие отраслей топливно-энергетического комплекса. Так, важную роль играет рациональное проектирование транспортных систем и обустройство топливных месторождений, что может быть проблематичным без предварительной оценки и прогноза капитальных вложений, затрат и стоимости основных производственных фондов (см., например, Л. Е. Варшавский. Методы и модели прогнозирования показателей транспорта топливно-энергетических ресурсов (на примере газопроводного транспорта) //Экономика и математические методы, 1986, том 22, №6, с. 1052-1063).

В условиях внешнеэкономических ограничений и политической неопределенности, а также волатильности нефтегазового рынка представляется необходимым совершенствование существующих методов прогнозирования, используемых в нефтегазовой отрасли, а также оценка и последующее использование недоиспользуемого производственного потенциала российских нефтегазовых компаний (см., например, А.А.фанасьев. Прогнозирование добычи природного газа ПАО «Газпром» и его производственного потенциала в условиях внешнеэкономических ограничений //Экономика и математические методы, 2017, том 53, №4, с. 26-35).
Моделирование и прогноз добычи нефти и природного газа имеет для России стратегическое значение, так как нефтегазовая отрасль является одной из ключевых отраслей российской экономики и имеет существенный вес в структуре доходов государственного бюджета, в частности, доходов от налогообложения и экспорта. Модели производственного потенциала также могут быть применены компаниями для разработки своей стратегии развития, укрепления позиций на рынке и принятия оптимальных экономических решений.

Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта.

Решение задачи 1 будет получено при помощи построения математической модели, связывающей сетевые характеристики данных с рассматриваемыми выходными переменными. Данные фирм будут собираться из открытых источников, таких как социальные сети VK.com или сайты, описывающие чемпионаты онлайн-игр. Подобный сбор данных и подробный анализ сетевых характеристик VK.com уже был описан участниками исследования в таких
публикациях как (A. Semenov, A.V. Mantzaris, A. Nikolaev, A. Veremyev, J. Veijalainen, E.L. Pasiliao, V. Boginski. Exploring social media network landscape of post-Soviet space // IEEE Access, 7: p. 411--426, 2019) и (D. Duvanova, A. Nikolsko-Rzhevskyy, A. Nikolaev, A. Semenov. Violent Conflict and Online Segregation: An analysis of social network communication across Ukraine's regions //Journal of Comparative Economics, Volume 44, Issue 1, 2016).
Анализ предполагается проводить как методами линейной регрессии, что часто применяется в ведущих журналах, входящих в рейтинг FT-50, так и методами машинного обучения. Планируется рассмотреть множество различных характеристик сетей, таких как различные метрики центральности, PageRank и др. характеристик. Авторы проекта уже имеют опыт проведения подобных исследований, например см. (Y. Zhang, C. Ridings, A. Semenov. What to Post? Combining Computational Text Analysis with Manual Sense Making to Understand Engagement Cultivation in Microblogging // Minor Revision (2nd), International Journal of Information Management, 2021).

Задача 2 будет решаться методами системного анализа, пространственного анализа, исследования операций, линейного программирования, целочисленного программирования.

Извлечение, преобразование и загрузка данных для математических моделей будет выполняться с применением геоинформационных систем, реляционных баз данных с применением современного программного обеспечения.
Экономико-математические модели оптимизационных задач будут разрабатываться в системе моделирования на языке алгебраического моделирования. При решении оптимизационных задач будут применяться элементы теории графов,симплекс-метод, метод ветвей и границ, метод внутренней точки и эвристические алгоритмы решения, профессиональные коммерческие решатели такие как CPlex и Gurobi.

В основе решения Задачи 3.1 лежат асимптотические (т.е. прилагаемые к большим выборкам) свойства гибких, непараметрических оценок функций, где оценки базируются, в первую очередь, на локальных полиномах невысокого порядка. В контексте линейных моделей c функциональными коэффициентами, такие оценки были предложены руководителем проекта и его соавторами для анализа динамики доходов (Di L., Murtazashvili I., Prokhorov A. Twosample nonparametric estimation of intergenerational income mobility in the United States and Sweden // Canadian Journal of Economics. 2015, Vol. 48, pp. 1733–1761), однако, разработка этих методов и изучение их статистических свойств в рамках МПП значительно усложняется. Сложность в том, что производственная функция, по определению, удовлетворяет некоторым свойствам, таким как однородность и монотонность.
Непараметрическое оценивание функций, удовлетворяющих таким ограничениям, выводит эту задачу на рубеж современных исследований в области непараметрических оценок (см., например, Parmeter Ch., Sun K., Henderson D., Kumbhakar S. Estimation and inference under economic restrictions // Journal of Productivity Analysis, 2014, Vol. 23, pp. 111-129), что может служить прямым подтверждением новизны предлагаемого метода оценки МПП.

Для решения Задачи 3.2 планируется использовать непараметрическую версию метода максимального правдоподобия с ограниченной информацией (LIML) и обобщенного метода моментов (GMM), параметрические версии которых были недавно разработаны в статье Amsler Ch., Prokhorov A., Schmidt P. Endogeneity in Stochastic Frontiers Models // Journal of Econometrics. 2016. Vol. 190, pp.280-288.

Непараметрические, или локальные, модификации указанных методов, в самой общей форме, предполагают оценку многомерного распределения, описывающего зависимость всех эндогенных элементов модели, в том числе факторов производства, показателя эффективности, внешних характеристик и стохастического шума. Для этого предлагается использовать многомерные копула- функции, методы оценки и тестирования которых были недавно предложены в статьях Anatolyev S., Khabibullin, R., Prokhorov A. An algorithm for reconstructing high dimensional distributions from distributions of lower dimensions // Economics Letters, 2014, Vol. 123, pp. 257-261 и Huang W, Prokhorov A. Goodness-of-fit test of copulas // Econometric Reviews, 2014, Vol. 33, pp. 751-771.

Предлагаемый метод решения Задачи 3.3 состоит из двух подразделов. Для непараметрической оценки панельных моделей с ненаблюдаемым компонентом предлагается использовать обобщение метода копул-функций, основные компоненты которого были предложены недавно в статье Schmidt P., Prokhorov A. Using copulas to model time dependence in stochastic frontier models // Econometric Reviews, 2014, Vol. 33 pp. 497-522. Для оценки МПП в условиях временного тренда предлагается использовать модификацию метода ортогональных проекций, недавно предложенного (в параметрическом формате) в работе Kutlu L. A time-varying individual effects model with endogenous regressors // SSRN Working Paper, 2016.

Имеющийся у коллектива исполнителей научный задел по проекту (описание разработок текстом)

Сбор больших массивов данных из сети VK.com был описан в статье A. Semenov, A.V. Mantzaris, A. Nikolaev, A. Veremyev, J. Veijalainen, E.L. Pasiliao, V. Boginski. Exploring social media network landscape of post-Soviet space. IEEE Access, 7: p. 411-426, 2019.

Регрессионная модель, связывающая содержимое сообщений, отправленных с аккаунтов ферм органической продукции в социальной сети Weibo с показателями вовлеченности был представлен в Y. Zhang, C. Ridings, A. Semenov. What to Post? Combining Computational Text Analysis with Manual Sense Making to Understand Engagement Cultivation in Microblogging, Minor Revision (2nd), International Journal of Information Management, 2021.
Методы, связывающие вовлеченность пользователей с ростом онлайн форумов представлены в статье R. Gopalsamy, A. Semenov, E.L. Pasiliao, S. McIntosh, A. Nikolaev. Establishing Engagement as a Driver of Growth of Online Health Communities. Journal of Medical Internet Research, 19(8):e304, 2017.

Методы, являющиеся заделом для решения задачи 2 были ранее представлены участниками проекта в статьях Bacherikov, I., Simonenkova, A., Simonenkov, M., Danilov,D. Application of DTW index in MIP model for fire ponds and access routes layout optimisation. ProceedIngs: The 2nd International Electronic Conference on Forests — Sustainable Forests: Ecology, Management, Products and Trade At: online. August 2021.
Simonenkova, A., Simonenkov, M., Bacherikov, I. Optimization of forest road network layout problem. IOP Conference Series: Materials Science and Engineering, 2020, 817(1), 012032.
W. Geremew, N.M. Nam, A. Semenov, V. Boginski, E.L. Pasiliao. A DC programming approach for solving multicast network design problems via the Nesterov smoothing technique. Journal of Global Optimization, 2018.
Симоненкова А.В., Бачериков И.В., Симоненков М.В. Задача оптимизации размещения сети лесовозных автомобильных дорог. Кластеризация лесосек. Математическая модель минимизации суммарной стоимости строительства дорог до центров кластеров // Актуальные вопросы транспорта в лесном комплексе. Материалы Всероссийской НПК. Санкт-Петербург: СПбГЛТУ. 2020. С. 67-70.
G. Xu, A. Semenov, M. Rysz. An Integer Programming Formulation of the Key Management Problem in Wireless Sensor Networks. Optimization Letters, 2019
M. Samadi, R. Nagi, A. Semenov, A. Nikolaev. Seed activation scheduling for influence maximization in social networks, Omega, Volume 77, 2018, p. 96--114
Lezina, T., Stoianova, O., Ivanova, V., Gadasina, L. Assessment the Company’s Readiness for Digital Transformation: Clarifying the Issue /International Conference on Digital Economy. – Springer, Cham, 2019. p. 3-14. DOI: 10.1007/978-3-030-30874-2_1
Gadasina L., Manzhieva A. (2021) Development of a Decision-Making System for Choosing Software in the Field of Data Management. In: Radionov A.A., Gasiyarov V.R. (eds) Advances in Automation II. RusAutoConf 2020. Lecture Notes in Electrical Engineering, vol 729. Springer, Cham. https://doi.org/10.1007/978-3-030-71119-1_9
Ласкин М. Б., Гадасина Л. В., Зайцева Е. А. (2021) Кадастровая стоимость как инструмент мониторинга рыночной стоимости недвижимости. Вестник Санкт-Петербургского университета. Экономика. Т. 37. Вып. 1. С. 84–108. https://doi.org/10.21638/spbu05.2021.104
Gadasina, L., Veklenko, V., Luukka, P. Summarization Algorithms for News: A Study of the Coronavirus Theme and Its Impact on the News Extracting Algorithm. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2021, 13116 LNCS, стр. 351–360 DOI: 10.1007/978-3-030-91434-9_30
Лебедева Л.Н., Шмаков Н.Н. Современные подходы к оцениванию эффективности игроков хоккейной команды. Московский экономический журнал. 2021. № 6.

Данные статьи содержат описания методов применяемых для сетевой оптимизации, и способов их решения как с помощью MIP солверов, так и различных эвристик.

Для Задачи 3, в рамках предлагаемых направлений апробации ожидаемых результатов, особый интерес представляет собой использование МПП для анализа банковской деятельности. Традиционные методы построения МПП весьма популярны в исследованиях банковской эффективности российских банков (см, например, Павлюк Д.В. Модель эффективности деятельности российских банков // Прикладная эконометрика, 2006, №3, стр.3-8; Головань С.В., Карминский А.М., Пересецкий А.А. Эффективность российских банков с точки зрения минимизации издержек с учетом факторов риск // Экономика и мат. Методы, 2008, Т. 4, стр. 28–38; Fries S., Taci A. Cost efficiency of banks in transition: Evidence from 289 banks in 15 post-communist countries// Journal of Banking and Finance, 2005, Vol.29 (1), pp. 55–81). Наши оценки МПП в других секторах позволяют заключить, что показатели эффективности и производительности банков, полученные с учетом эндогенности факторов с помощью нового поколения параметрических методов, могут отличатся от полученных в указанных работах в разы (!) (см., например, Amsler Ch., Prokhorov A., Schmidt P. Endogeneity in Stochastic Frontier Models // Journal of Econometrics, 2016, Vol.190(2), pp. 280-288).

В исследованиях в сфере энергетики России, напротив, наблюдается пробел. Поиск по базе издательства Эльзевир статей, опубликованных в журнале Energy Economics c 2006 года до момента написания заявки, содержавших слова «energy efficiency» и «Сhina» в названии, аннотации и ключевых словах дает 43 статьи, по «energy efficiency» и «Russia» – 3 статьи. Среди немногочисленных имеющихся статей, популярны методы, основанные на оценке существующей при современной технологии «лучшей практики», то есть вариант МПП когда энергоэффективность рассчитывается как расстояние между фактически используемым количеством энергии и эффективной границей, а среди факторов, воздействующих на эффективность присутствуют временные тренды и характеристики внешней среды, например, погодные условия (см., например, Ang B. W., Mu A. R., Zhou P. Accounting frameworks for tracking energy efficiency trends // Energy Economics, 2010, vol. 32, №. 5, pp. 1209-1219; Cornillie J., Fankhauser S. The energy intensity of transition countries // Energy Economics, 2004, 26(3), pp. 283-295; Filippini M. et al. Energy demand and energy efficiency in the OECD countries: a stochastic demand frontier approach // Energy Journal, 2011, vol. 32, №. 2, pp. 59-80; Stern, D.I. Modeling international trends in energy efficiency // Energy Economics, 2012, Vol. 34(6), pp. 2200-2208.)

Таким образом, сравнение ожидаемых результатов с современным состоянием исследований на мировом уровне, как в плане теории, так и в плане приложений, выгодно отличает предлагаемые методы. Наиболее значимым научным заделом для решения задач 3.1-3.3, поставленных выше, являются:
1. Оригинальные методы, разработанные членами коллектива исполнителей и их соавторами в контексте:
a. параметрических оценок МПП с эндогенными факторами производства
b. моделей динамики дохода с функциональным коэффициентом
c. моделей с копул-функциями и панельными данными
d. МПП с внешними факторами
e. Оптимальных индексов производства .
2. Оригинальные прототипы программного обеспечения методов
3. Прикладные исследования, проведенные членами коллектива исполнителей и их соавторами в контексте:
a. оценки влияния удовлетворенности потребителей банковских услуг
b. оценки динамики энергоэффективности в странах бывшего СССР
4. Уникальный статистический материал, собранный членами коллектива исполнителей.

Детальный план работы на первый год выполнения проекта.

В течение первого года, планируется следующее распределение исполнителей по задачам Проекта и срокам их исполнения:
Семенов А.В., Симоненкова А.В., Гадасина Л.В.:
• Разработка статических и динамических математических моделей размещения сети дорог, в том числе с учетом сезонных ограничений и характеристик устойчивости. (месяц 1-4);
• Разработка алгоритмов оптимизации на статических сетях (static networks) (месяц 5-8);
• Разработка эвристических методов решения оптимизационных задач размещения сети дорог (месяц 9-11);
• Подготовка предварительных результатов к конференциям и публикации (месяц 11-12).
• Разработка алгоритмов подбора весов сетей, определяемых такими факторами как водоохранные зоны, глубина прохождения грунтовых вод, миграция животных и т.п. (месяц 8 - 10)
• Разработка алгоритмов решения задач оптимизации размещения дорог в динамических условиях на основе обучения с подкреплением (месяц 10 - 12)
Гадасина Л.В., Семенов А.В., Шмаков Н.Н., Жариков Д.С.:
• Подбор архитектуры и параметров сети для конкретных видов спорта и условий игры, верификация и апробация результатов (месяц 1-6);
• Разработка алгоритмов анализа результативности игроков командных видов спорта с использованием сетевых методов (месяц 7-12);
• Подготовка предварительных результатов к конференциям и публикации (месяц 11-12).
Прохоров А.Б.:
• Разработка математических доказательств и теоретическое исследование свойств непараметрических оценок (месяц 1-6);
• разработка теоретических свойств непараметрических оценок МПП на базе локальных полиномов невысокого порядка (месяц 7-12);
• подготовка предварительных результатов к конференциям и публикации (месяц 11-12).
Подкорытова О.А. :
• создание и поддержание прототипа программного обеспечения разрабатываемых методов на базе пакета STATA (месяц 1-12);
• апробация разработанных методов с использованием реальных статистических данных;
• выступление с докладом на конференции о предварительных результатах апробации.

К концу первого года выполнения Проекта, планируется:
- завершить разработку общих непараметрических методов оценки моделей типа МПП, устойчивых к неверным спецификациям производственной функции;
- апробировать разработанные методы с использованием имеющегося у коллектива статистического материала;
- сдать в печать или подготовить к печати в рецензируемом журнале, индексируемом в базе Scopus, одну статью, содержащую первые результаты исследований
- опубликовать предварительных результаты первого этапа работы в серии препринтов (RePEc– Research Papers in Economics)
- доложить предварительные результаты первого этапа работы на международных конференциях из следующего списка:
а. Международная конференция INFORMS (Institute for Operations Research and
Management Science)
б. Международная конференция META (Modern Econometric Tools and Applications)
с. Международная конференция EWEPA (European Workshop on Productivity and Efficiency Analysis)

Планируемый объем дополнительно привлеченных средств из внешних по отношению к СПбГУ источников за весь период выполнения проекта.

Планируется ежегодное участие в конкурсах РНФ, а также привлечение софинансирования организаций, потенциально заинтересованных в результатах исследований, в том числе, государственные службы в области дорожного планирования и строительства, и в области развития технологий и средств масс-медиа. Планируется привлекать дополнительные средства в объеме 2 млн руб в год.

Layman's description

Основная научная задача, лежащая в основе данного проекта, заключается в разработке новых методов анализа данных, включая методы машинного обучения и математической оптимизации, и их применение для решения актуальных экономических проблем.

В рамках исследования были проведены следующие направления работы:
- Разработка торговой стратегии на финансовом рынке, включая рынок криптовалют, с использованием агентов с фиксированными стратегиями и агента со стратегией самообучения. Для моделирования поведения таких агентов были применены алгоритмы глубокого обучения с подкреплением.
- Использование методов машинного обучения в спортивной и игровой аналитике. Была предложена методология применения графовых нейронных сетей для анализа и предсказания результатов в киберспорте. Разработан метод оценки эффективности хоккеистов на основе модели ожидаемых голов. Полученные результаты были проинтерпретированы для использования менеджерами для принятия врешений в области трансферной политики. Разработаны методы оценки компетенций игроков бизнес-симуляций на основе журнала игры.
- Построение эконометрических моделей и моделей машинного обучения для проверки гипотез о влиянии оценок экспертов на потребительские оценки вина и его рейтинг (популярность). Для этого были собраны данные по пользовательским оценкам вин за большой провежуток врмени и проверены гипотезы о формировании споса на вина.

Key findings for the stage (in detail)

1. Опубликована статья Mansurov K., Semenov A., Grigoriev D., Radionov A., Ibragimov R. Impact of self–learning based high–frequency traders on the stock market //Expert Systems with Applications. – 2023. – С. 120567., журнал Scopus, Q1.
В рамках данного исследования была сформулирована цель разработки инновационных методов анализа данных, включая новейшие методы машинного обучения и математической оптимизации, и их последующее применение к актуальным экономическим вопросам.
В представленной статье основное внимание уделяется роли самообучающихся агентов в мультиагентных моделях финансовых рынков. Была разработана модель агентного моделирования финансового рынка, в которую, наряду с агентами, следующими фиксированным стратегиям, был включен агент с самообучением. Для моделирования поведения данного агента были применены алгоритмы глубокого обучения с подкреплением, в частности, глубокий детерминированный градиент политики (DDPG).
В ходе исследований было выявлено, что модель с самообучающимся агентом обеспечивает более точное приближение к реальному рынку, чем модель с классическими агентами. В частности, в отличие от модели с классическими агентами, модель с самообучающимся агентом не обладает такой выраженной “тяжелохвостностью”. Это свидетельствует о том, что для полного понимания рыночных процессов модели симуляции должны учитывать самообучающихся агентов, которые играют значительную роль на современных финансовых рынках.
В заключение статьи представлен пакет Python, разработанный в рамках реализации исследования. Этот пакет позволяет моделировать финансовый рынок, создавать собственных агентов и оценивать их влияние на рынок.
Таким образом, выполненная работа и написанная статья полностью соответствуют поставленной задаче проекта. Были успешно разработаны и применены новые методы анализа данных и машинного обучения к современным экономическим проблемам.
Развитие результатов данного исследования докладывалось Мансуровым К. на 7th edition of International Workshop in Financial Markets and Nonlinear Dynamics (FMND), 1-2 июня, 2023 в Париже. Тема доклада Impact of Self–Learning based High–Frequency Traders on the Stock Market.

2. Принята к публикации статья Mansurov K., Semenov A., Grigoriev D., Radionov A., Ibragimov R. “Cryptocurrency exchange simulation” // Computational Economics, журнал Scopus, Q2.

В данной работе предложен подход, основанный на использовании передовых алгоритмов машинного обучения для моделирования финансовых рынков, который был адаптирован и применен к рынку криптовалют. Эти рынки отличаются большей активностью и, как правило, более высокой волатильностью, что привлекает трейдеров, готовых к большим рискам.
В рамках исследования была разработана модель на основе агентов с пятью различными стратегиями, некоторые из которых основаны на принципах искусственного интеллекта. Был проведен сравнительный анализ результатов работы построенной модели с результатами, полученными с использованием ранее предложенных моделей, а также с характеристиками реального рынка.
В результате анализа было выявлено, что наша модель с агентом, способным к самообучению, обеспечивает более точное приближение к реальному рынку, чем модель с классическими агентами. В частности, модель с самообучением лучше соответствует стилизованным фактам, наблюдаемым на реальном рынке. Таким образом, было продемонстрировано, что для глубокого понимания рыночных процессов модели симуляции должны учитывать самообучающихся агентов, которые играют значительную роль на современных фондовых рынках.

3. Опубликована статья Жариков Д.С., Меликов Т.Т., Григорьев Д.А. Разработка платформы для предиктивного анализа в киберспорте // Исследование различных направлений современной науки: естественные и технические науки: сборник материалов XXVIII-ой международной очно-заочной научно-практической конференции, Том 2. – 2023. – с. 10-12., РИНЦ.
В рамках исследования была разработана платформа, целью которой является предсказание исхода киберспортивных состязаний в игре “Dota 2”. Основой для этих прогнозов служат данные, собранные до начала матча. Кроме того, данная платформа предлагает оптимальный выбор внутриигровых персонажей для подготовки команды к предстоящему матчу.
Пользователи платформы получают возможность не только предсказывать исходы матчей, но и выбирать наиболее подходящих героев перед началом игры. Важно отметить, что платформа предусматривает возможность дообучения моделей на основе предматчевой статистики, что обеспечивает высокую точность прогнозов.

4. Опубликована статья Жариков Д.С., Меликов Т.Т., Григорьев Д.А. МЕТОДОЛОГИЯ ПРИМЕНЕНИЯ ГРАФОВЫХ НЕЙРОННЫХ СЕТЕЙ (GNN) В КИБЕРСПОРТЕ: АНАЛИЗ И ПРЕДСКАЗАНИЕ РЕЗУЛЬТАТОВ // В сборнике: Научные исследования современных ученых. Сборник материалов XXXI-ой международной очно-заочной научно-практической конференции. Москва, 2023. С. 99-102., РИНЦ.

В данной работе представлена методология, которая включает в себя применение графовых нейронных сетей (GNN) для анализа и прогнозирования результатов в киберспортивных состязаниях. Данная задача актуальна, так как киберспорт является динамично развивающейся отраслью с огромным экономическим потенциалом.
В статье подробно описывается процесс представления данных в форме графа, а также этапы построения и обучения модели GNN. Кроме того, проводится сравнительный анализ с базовыми моделями машинного обучения, что позволяет оценить эффективность и преимущества предложенного подхода.

5. Проведено исследование на тему Применение методов машинного обучения для оценки навыков игроков с помощью логов бизнес-симуляций. Использовалась методология Game-based assessment (GBA), которая позволяет оценивать навыки человека в естественных или смоделированных условиях его поведения, становясь практически невидимой для оцениваемого, таким образом снижая тревогу, которая может возникнуть при тестировании или прямой оценке. Был построен мета-классификатор (Meta-RF), который объединил результаты структурных признаков результатов игры и отдельных цепочек действий игроков. Модель можно применять в качестве первичной для оценки навыков новых игроков.
Результаты исследования докладывались на на Международной конференции «Моделирование в инженерном деле», МГТУ им. Н.Э. Баумана, 6 апреля 2023, тема доклада “Применение методов машинного обучения для оценки навыков игроков по логам бизнес-симуляции”.
По результатам исследования написана статья «Application of Machine Learning Methods to Assess Player Skills via Business Simulation Logs», соавторы Массалимова А., Вьюненко Л.Ф., направлена в журнал The Bottom Line.

6. Разработан метод оценки эффективности хоккеистов на основе модели ожидаемых голов (XG) и модели ожидаемых голов в створ (XGoT). Показатели на основе XG и XGoT устраняют влияние случайной составляющей на итоговые оценки и справедливо с математической точки зрения вознаграждают или штрафуют игроков за бросковые события на льду. Разработанный подход был апробирован на play-by-play данных из 11887 хоккейных матчей, которые были сыграны в сезонах 2019 / 2020, 2020 / 2021, 2021 / 2022. При построении моделей и подготовке данных важной является проблема отбора признаков и внутреннего переобучения. Обе проблемы были решены. Признаки анализировались и формировались на основе либо мнения эксперта, оценивающего игру, либо на основе объективных позиционных данных игры. Был построен алгоритм бинарной классификации с использованием градиентного бустинга. Результаты моделирования были проинтерпретированы с помощью подхода SHAP и доказана корректность логики их построения. Результаты исследования докладывались Шмаковым Н.Н. на 3rd International Conference on Econometrics and Business Analytics (iCEBAR 2023) в Ташкенте, 28 сентября 2023. Доклад Developing of the XG approach for evaluating hockey player efficiency.

7. Проведено исследование развития стратегий цифровой трансформации крупных компаний. Разработана модель сравнительно оценки стратегий. Текущие результаты исследования выложены в открытом репозитории SSRN: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4643308

8. Проводится исследование по выявлению факторов, влияющих на потребительские оценки вина. Сформирована методология исследования, проведен сбор данных. В настоящее время идет апробация моделей.

9. Подана заявка на грант РНФ: Конкурс 2024 года «Проведение фундаментальных научных исследований и поисковых научных исследований по поручениям (указаниям) Президента Российской Федерации» (междисциплинарные проекты). Руководитель проекта Скроботов А.А., объем финансирования 15 млн. руб.

10. Выигран грант РНФ: Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (45). Руководитель гранта Гадасина Л.В., объем привлеченного финансирования 7 млн. руб., грант № 20-18-00365-П на тему «Новые подходы к экономико-математическому моделированию современных рынков и производств», Pure ID 105235543.

Key findings for the stage (summarized)

1. Опубликована статья Mansurov K., Semenov A., Grigoriev D., Radionov A., Ibragimov R. Impact of self–learning based high–frequency traders on the stock market //Expert Systems with Applications. – 2023. – С. 120567., журнал Scopus, Q1.
2. Принята к публикации статья Mansurov K., Semenov A., Grigoriev D., Radionov A., Ibragimov R. “Cryptocurrency exchange simulation” // Computational Economics, журнал Scopus, Q2.
3. Опубликована статья Жариков Д.С., Меликов Т.Т., Григорьев Д.А. Разработка платформы для предиктивного анализа в киберспорте // Исследование различных направлений современной науки: естественные и технические науки: сборник материалов XXVIII-ой международной очно-заочной научно-практической конференции, Том 2. – 2023. – с. 10-12., РИНЦ.
4. Опубликована статья Жариков Д.С., Меликов Т.Т., Григорьев Д.А. МЕТОДОЛОГИЯ ПРИМЕНЕНИЯ ГРАФОВЫХ НЕЙРОННЫХ СЕТЕЙ (GNN) В КИБЕРСПОРТЕ: АНАЛИЗ И ПРЕДСКАЗАНИЕ РЕЗУЛЬТАТОВ // В сборнике: Научные исследования современных ученых. Сборник материалов XXXI-ой международной очно-заочной научно-практической конференции. Москва, 2023. С. 99-102., РИНЦ.
5. Проведено исследование на тему Применение методов машинного обучения для оценки навыков игроков с помощью логов бизнес-симуляций. Результаты исследования докладывались на на Международной конференции «Моделирование в инженерном деле», МГТУ им. Н.Э. Баумана, 6 апреля 2023, тема доклада “Применение методов машинного обучения для оценки навыков игроков по логам бизнес-симуляции”.
По результатам исследования написана статья «Application of Machine Learning Methods to Assess Player Skills via Business Simulation Logs», соавторы Массалимова А., Вьюненко Л.Ф., направлена в журнал The Bottom Line.
6. Разработан метод оценки эффективности хоккеистов на основе модели ожидаемых голов (XG) и модели ожидаемых голов в створ (XGoT). Результаты исследования докладывались Шмаковым Н.Н. на 3rd International Conference on Econometrics and Business Analytics (iCEBAR 2023) в Ташкенте, 28 сентября 2023. Доклад Developing of the XG approach for evaluating hockey player efficiency.
7. Проведено исследование развития стратегий цифровой трансформации крупных компаний. Разработана модель сравнительно оценки стратегий. Текущие результаты исследования выложены в открытом репозитории SSRN: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4643308

8. Проводится исследование по выявлению факторов, влияющих на потребительские оценки вина. Сформирована методология исследования, проведен сбор данных. В настоящее время идет апробация моделей.

9. Подана заявка на грант РНФ: Конкурс 2024 года «Проведение фундаментальных научных исследований и поисковых научных исследований по поручениям (указаниям) Президента Российской Федерации» (междисциплинарные проекты). Руководитель проекта Скроботов А.А., объем финансирования 15 млн. руб.

10. Выигран грант РНФ: Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (45). Руководитель гранта Гадасина Л.В., объем привлеченного финансирования 7 млн. руб., грант № 20-18-00365-П на тему «Новые подходы к экономико-математическому моделированию современных рынков и производств», Pure ID 105235543.

Academic ownership of participants (text description)

Прохоров А.Б.: Осуществлялось общее руководство проектом, консультирование участников по задачам применения методов машинного обучения, по теоретическим и практическим аспектам исследований.

Гадасина Л.В.: Проведено исследование на тему Применение методов машинного обучения для оценки навыков игроков с помощью логов бизнес-симуляций. Исследование проводилось путем анализа логов бизнес-симулятора "Корпоративное управление", который имитирует управление предприятием на реальном рынке. Данные были проанализированы с использованием программного обеспечения Python с использованием обоснованных теоретических методик. Предложен подход к применению методов машинного обучения для анализа журналов бизнес-моделирования, основанный на построении метаалгоритма, учитывающего различные типы входных данных. По результатам исследования написана статья в соавторстве с Массалимовой А., Вьюненко Л.Ф. Статья направлена в журнал The Bottom Line. В настоящее время находится на рецензировании. Проведено исследование развития стратегий цифровой трансформации крупных компаний. Разработана модель сравнительно оценки стратегий. Текущие результаты исследования выложены в открытом репозитории SSRN: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4643308

В рамках проекта по разработке новых методов анализа данных, в частности, новых методов машинного обучения и математической оптимизации, и их применение к современным экономическим проблемам, участники проекта Д.А. Григорьев, Д.С. Жариков и К. Д. Мансуров выполнили следующую работу:
Д.А. Григорьев проводил исследования по предиктивной аналитике финансовых рынков и киберспорта. Его вклад включает:
- Формулирование ключевых вопросов, которые требуют исследования, и определение целей, которые должны быть достигнуты в результате исследования.
- Выбор наиболее подходящих методов и техник для анализа данных и достижения целей исследования.
- Анализ данных, полученных в результате исследования, и их интерпретацию в контексте поставленных исследовательских вопросов и целей.
- Формулирование ключевых идей и выводов, полученных в результате исследования, и их представление в форме научной статьи.
По результатам исследований опубликованы 3 статьи, одна принята к печати.

Шмаков Н.Н.: Проводил исследование на тему Разработка XG-подхода для оценки эффективности хоккеистов. Главное преимущество исследования заключается в том, что оно предоставляет точную, всестороннюю и поддающуюся расшифровке информацию о каждом игроке в составе команды и позволяет сравнить его с любым игроком на трансферном рынке. Результаты исследования докладывались на 3rd International Conference on Econometrics and Business Analytics (iCEBA), 28 сентября - 1 октября 2023.

А.А. Скроботов совместно с В.И. Зинченко проводили исследование по выявлению факторов, влияющих на потребительские оценки вина. Их вклад включает:
Сбор и анализ литературных источников на схожие темы исследования. Формулирование ключевых гипотез и целей исследования. Выбор наиболее подходящих методов и моделей для анализа данных и проверки гипотез. Сбор данных с приложения Vivino по пользовательским оценкам за большой временной период и с веб-ресурса wine-searcher по ценам на различные вина с различными винтажами. Проведение проверки корректности и полноты собранных данных. Проведение первичного анализа данных, собранных в течение исследования, и их визуальная интерпретация. Построение различных эконометрических моделей для проверки гипотез о влиянии оценок экспертов на потребительские оценки вина, а в следствии и на рейтинг (популярность) вина.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

Не разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

Разрешается
Short titleGZ-2022
AcronymGZ_MDF_2023 - 1
StatusFinished
Effective start/end date1/01/2331/12/23

    Research areas

  • Производственный потенциал, обработка естественного языка, логистика, сетевой анализ, анализ данных, машинное обучение, лесное хозяйство, социальные сети, большие данные

ID: 101748259