Научная проблема, на решение которой направлен проект.
При анализе и прогнозе временных рядов большую роль играет построение методов, допускающих автоматизированную настройку модели и параметров. Для методов, основывающихся на параметрической модели ряда, автоматизация обычно есть. Однако, для непараметрических методов автоматический подбор параметров в силу объективной причины отсутствия модели ряда значительно затруднен. Поэтому важно разработать методы и постановки задачи, в которых непараметрические методы также могут быть автоматизированы, т.е. к алгоритмам анализа должна быть добавлена дополнительная интеллектуальная составляющая, позволяющая максимально уменьшить участие человека. Одной из проблем при этом является вопрос о дополнительных предположениях о данных, при которых алгоритмы автоматизации являются теоретически обоснованными.
Научная значимость и актуальность решения обозначенной проблемы.
Ввиду появления больших объемов данных, анализ данных, в котором все шаги максимально автоматизированы, становится все более и более актуальным. В методах машинного обучения, направленных на решение этой задачи, как правило, нет интерпретации построенного алгоритма. Однако часто, особенно для временных рядов, для достоверности результатов важно понимать, какая именно структура данных используется, например, для прогнозирования, чтобы отслеживать изменения этой структуры во времени и соответственно подправлять прогнозирующий метод. С другой стороны, временные ряды часто достаточно короткие (невозможно сделать ряд сколько угодно длинный, так как новые наблюдения поступают только в новый момент времени, а получение дополнительных исторических данных может привести к тому, что чем более старые данные, тем больше вероятность того, что они не соответствуют структуре последних данных, которую нужно прогнозировать. Поэтому по-прежнему представляют интерес методы, применимые к коротким временным рядам.
Конкретная задача (задачи) в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность.
В рамках описанной выше общей проблемы мы рассматриваем класс методов для анализа и прогноза временных рядов, основанных на подпространстве сигнала. Этот класс методов очень широк и в его рамках можно решать почти все задачи анализа временных рядов. Области, в которых он применяется, включают в себя, в частности, экономику, климатологию, медицину, географию и многие другие.
Чтобы преодолеть ограничения рассматриваемого класса методов, заключающегося, в частности, в необходимости ручного управлении методом, необходимо его автоматизировать. При этому задача должна решаться в комплексе, включая разные, но взаимосвязанные задачи анализа временных рядов, такие как, в частности, анализ и прогноз сигнала, выделение тренда, обнаружение периодичностей, и пр., а также временные ряды различной структуры.
Научная новизна исследований, обоснование того, что проект направлен на развитие новой для научного коллектива тематики, обоснование достижимости решения поставленной задачи (задач) и возможности получения предполагаемых результатов, в том числе, на определение объекта и предмета исследования, составление плана исследования, выбор методов исследования.
Объект исследования - временные ряды, где у научного коллектива имеется большой научный задел. Однако при получении теоретических результатов не учитывалась необходимость разработки и обоснования автоматического применения разрабатываемых методов, делающих методы интеллектуальными в том смысле, что к ним добавляется методика того, как метод должен понять структуру временного ряда и подстроиться под него. Поэтому это направление, как и предмет исследования, является новым. Естественно, если бы научный коллектив не имел теоретического обоснования существующих методов, то добавление к методам такой интеллектуальной составляющей было бы невозможно. Последнее является обоснованием достижимости решения поставленных задач и возможности получения предполагаемых результатов.
Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты.
В методах анализа и прогноза временных рядов, допускающих автоматизацию, обычно есть следующие ограничения: есть модель сигнала и/или шума, а также известен период ряда (если в ряде есть периодичность). Часто требуется задание аддитивной или мультипликативной модели шума, обобщаемое на случай, когда, например, преобразование Кокса-Бокса может сделать шум стационарным. В этих условиях подход обычно такой: на основе информационных критериев подобрать параметрическую модель, а потом уже в подобранной модели оценить параметры (обычно это происходит одновременно). К таким методам можно отнести метод типа ARIMA, Seasonal ARIMA, ETS и, конечно, параметрическую регрессии. Проблема с данными, про которые заранее неизвестно выполнение перечисленных выше условий, заключается в том, что общих подход к ним невозможен. Поэтому продвижение в сторону автоматизации, как правило, происходит локально для конкретных практических задач или конкретной модификации метода. Пожалуй, не выделить научные группы, которые целенаправленно работали бы в направлении добавления интеллектуальной составляющей в целом к семейству методов, основанных на подпространстве сигнала.
Приведем ссылки на некоторые работы в рамках метода анализа сингулярного спектра:
F. J. Alonso, D. R. Salgado, J. Cuadrado, P. Pintado (2009) Automatic smoothing of raw kinematic signals using SSA and cluster analysis.
M.Kalantari, H.Hussani (2019) Automatic Grouping in Singular Spectrum Analysis.
J.Bógalo, P.Poncela, E.Senra (2021) Circulant singular spectrum analysis: A new automated procedure for signal extraction.
Первая работа посвящена конкретному виду данных. Во второй работе используется, на наш взгляд, довольно неустойчивый метод автоматической группировки компонент, основанный на корреляциях; работа посвящена решению задачи разложения временного ряда на компоненты. Третья работа посвящена конкретной модификации метода SSA.
Таким образом, на основе анализа конкурентных работ представляется, что предлагаемому в проекте направлению посвящены только разрозненные публикации, при этом они часто недостаточно опираются на имеющуюся теорию и методологию метода SSA в целом.
Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта и ожидаемые результаты.
Опишем семейство методов, к которому будем добавлять средства их автоматизации.
1. Начнем с описания базового вариант метода анализа сингулярного спектра, он же singular spectrum analysis, или коротко SSA (предлагаемые методы и подходы из пункта 4.6 более подробно описаны в прилагаемом файле). При этом будем обращать внимание на задание параметров методов в зависимости от модели ряда.
Рассмотрим временной ряд длины N.
Первый шаг метода имеет всего один параметр L, называемый длиной окна. Оно заключается в построении так называемой траекторной матрицы временного ряда. Траекторная матрица строится из отрезков ряда длины L в качестве столбцов. Таким образом из одного объекта создается повторность. Второй шаг не имеет параметров и в базовом варианте заключается в построении сингулярного разложения матрицы. Именно этот ключевой шаг делает метод адаптивным к структуре временного ряда. Результатом второго шага является разложение траекторной матрицы в сумму элементарных матриц ранга 1. Третий шаг наиболее сложен с точки зрения автоматизации, так как он заключается в группировке элементарных матриц некоторым образом. Четвертый шаг опять не имеет параметров и просто переводит сгруппированное разложение траекторной матрицы в разложение исходного временного ряда в сумму временных рядов. Группировка должна подчиняться поставленной цели - выделить сигнал, выделить тренд, обнаружить периодику, либо построить полное разложение в сумму тренда, периодической компоненты и шума.
Таким образом, к основным параметрам можно отнести длину окна L и способ группировки компонент. Если цель - выделить сигнал, то группировка упрощается и сводится к выбору r, числа первых компоненты в сингулярном разложении.
2. SSA и методы, основанные на подпространстве сигнала (signal-subspace approach). В результате первых двух шагов получается разложение траекторного пространства (пространства столбцов траекторной матрицы) на подпространства размерности один. Группировка первых r компонент, соответствующих сигналу, соответствует оценке подпространства сигнала, т.е. пространства столбцов траекторной матрицы сигнала. Поэтому в рамках signal-subspace approach часто рассматриваются только первые два шага метода SSA. Заметим, что этап группировки в SSA можно представлять себе не как суммирование матриц, а как группировку подпространств с последующей проекцией на полученные подпространства векторов траекторной матрицы исходного ряда.
3. SSA и ряды, управляемые линейными рекуррентными формулами (ЛРФ). Так как выделяемые точно компоненты в SSA соответствуют траекторным матрицам неполного ранга, то возникает вопрос, какой модели соответствуют временные ряды, траекторные матрицы которых (а они ганкелевы) имеют неполный ранг. Оказывается, что с точностью до краевых эффектов это ряды, управляемые линейными рекуррентными соотношениями (ряды конечного ранга). Про них известно, что такие ряды имеют вид суммы произведений полиномов, экспонент и косинусов. На этом строится связь между адаптивным разложением на соответствующем шаге в методе SSA и возникающей моделью сигнала или другой компоненты временного ряда. В частности, метод позволяет выделять гармоники неизвестной заранее частоты.
3. Методы, использующие подпространство сигнала. Кроме задачи разложения ряда на компоненты, есть также задача прогноза временного ряда, которая формулируется как прогноз в заданном подпространстве (подпространстве сигнала или подпространстве тренда, к примеру). В SSA известны разные способы прогноза, рекуррентный и векторный, но все они тем или иным образом связаны с оценкой линейной рекуррентной формулой управляющей прогнозируемой составляющей ряда. Здесь нужно сделать обратное замечание. Хотя для точного прогноза нужен ряд, управляемый ЛРФ, метод SSA позволяет делать разумный прогноз даже если прогнозируемая составляющая лишь приближенно и локально управляется ЛРФ, что значительно расширяет возможности метода. Близкой к задаче прогноза является задача заполнения пропуска, которая сводится к заполнению пропусков в заданном подпространстве, она тоже решается методами типа SSA.
4. Методы, связанные с построением модели. Так как в сигнал, описываемый ЛРФ, входят синусоидальные составляющие, то signal-subspace методы умеют оценивать частоты с хорошей точностью. Среди таких методов можно выделить метод ESPRIT, который по базису сигнального подпространства точно оценивает частоты входящих в сигнал гармоник. При этом дисперсия оценки частоты сигнала имеет порядок 1/n^3, поэтому метод называют методом высокого разрешения.
5. Аппроксимации рядами конечного ранга. Понятие ряда, управляемого ЛРФ, вообще говоря, не включает в себя построение траекторной матрицы. Методы типа SSA дают один из методов оценки сигнала. Есть еще класс методов, который непосредственно строит оценку сигнала конечного ранга с помощью аппроксимации рядом конечного ранга; результат, во-первых, точно управляется ЛРФ и, во-вторых, если модель верна, то можно построить оценку, которая является оценкой максимального правдоподобия. В этих же условиях можно попробовать построить аналог информационного критерия для определения ранга сигнала.
6. Анализ точности оценки сигнала и прогноза представляет интерес, даже если процедура автоматизирована. Такой анализ может дать рекомендации к выбору параметров метода. В рамках методов, основанных на подпространстве сигнала и тесно связанных с качеством оценки подпространства, работает теория возмущения, позволяющая оценивать ошибки полностью или их первый (линейный) порядок по возмущению.
7. Отдельно отметим применение SSA к частотной фильтрации временного ряда, что напрямую не связано с подпространством сигнала, так как не предполагает обязательность его наличия, но дополняет возможности метода SSA.
В связи с вышеперечисленным, предлагаются следующие подходы.
1. Выбор длины окна L может быть основан на теоретических рекомендациях по выбору окна исходя из точности результата. Однако, рекомендации по выбору зависят от решаемой задачи и структуры ряда, поэтому будет необходим предварительный анализ ряда или некоторая двухэтапная процедура
2. Для выделения сигнала целиком необходимо определять его ранг. Предварительный анализ показал, что стандартные информационные критерии не совсем применимы из-за особенностей алгоритма выделения сигнала. Поэтому подход состоит в выработке приближенных информационных критериев, скорректированных с учетом применения алгоритмов класса SSA для оценки сигнала.
3. Для разделения компонент внутри сигнала для возможности последующего автоматического выделения компонент сигнала, таких как тренд и периодические составляющие, будут применяться методы косоугольного разложения внутри сигнала. Эти методы уже разработаны для ручного применения, однако проблема в том, что и их применение нужно автоматизировать. Предполагается сравнение методов между собой с этой точки зрения, а также, при необходимости, их модификация.
4. Для выделения тренда и периодичных компонент также есть методы идентификации соответствующих компонент в разложении. Однако, эти методы также имеют параметры, поэтому кроме рассмотрения их в совокупности с предыдущим пунктом, нужно еще понять, как выбирать пороги в этих методах.
Таким образом, чтобы охватить все 4 пункта, перечисленные выше, общий план работы и планируемых результатов следующий:
1-й год.
1. Исследование по оценке ранга сигнала. Построение приближенных информационных критериев для оценки ранга для модели вида "сигнал плюс белый шум".
2. Развитие методов, улучшающих разделение компонент разложения. Сравнение их между собой с точки зрения точности и удобства для автоматизации.
3. Выделение тренда. Построение алгоритма автоматического выбора порога для выделения тренда. Согласованность алгоритма выделения тренда с лучшими из методов улучшения разделения компонент.
4. Выделение периодической компоненты. Построение методов идентификации периодических компонент, устойчивых к их форме, в частности, к модуляции амплитуды.
5. Исследование согласованности выбора длины окна и структуры временного ряда. Оценка точности решения задач оценки сигнала и его компонент в рамках метода SSA.
6. Выявление применимости разрабатываемых методов автоматизации выделения компонент ряда к задачам оценки частот, заполнения пропусков, прогноза, обнаружения разладки.
7. Создание скриптов на R, реализующих пункты 1 и 3.
2-й год.
1. Обобщение идеи построенного приближенного информационного критерия (пункт 1 за 1-й год) на случай шума, отличного от белого.
2. Выделение периодической компоненты. Построение алгоритма автоматического выбора порога для выделения периодики в алгоритмах, разработанных в пункте 4 за 1-й год. Согласованность алгоритма выделения периодики с методом улучшения разделения компонент.
3. Создание алгоритмов с обратной связью, позволяющих настроить параметры разработанных методов автоматической идентификации на основе свойств временного ряда.
4. На основе результатов пункта 6 за 1-й год, расширение разработанных методов автоматизации на другие задачи.
5. Создание скриптов на R, реализующих пункты 1-4. Создание общей системы скриптов для интеллектуального анализа данных, включая созданные за первый год проекта.
Имеющийся у научного коллектива научный задел по проекту, наличие опыта совместной реализации проектов (указываются полученные ранее результаты, разработанные программы и методы)
Голяндина Н.Э., Некруткин В.В., Звонарев Н.К. входят в состав гранта РФФИ "Разработка математических методов анализа и прогнозирования одномерных и многомерных временных рядов в рамках анализа сингулярного спектра", завершающегося в 2022 году, результаты по которому будут являться базой для разработки новых методов.
Основной научный задел состоит в научных работах, охватывающих много сторон применения метода анализа сингулярного спектра, являющегося одним их базовых методов, связанных с анализом подпространства сигнала.
Монографии
1. Nina Golyandina, Anton Korobeynikov, Anatoly Zhigljavsky (2018) Singular Spectrum Analysis with R. — Berlin Heidelberg: Springer-Verlag. https://link.springer.com/book/10.1007/978-3-662-57380-8, DOI 10.1007/978-3-662-57380-8
2. Nina Golyandina, Anatoly Zhigljavsky (2020) Singular Spectrum Analysis for Time Series. — Berlin Heidelberg: Springer-Verlag, 2nd Edition, https://link.springer.com/book/10.1007/978-3-662-62436-4, DOI 10.1007/978-3-662-62436-4
Основные статьи:
1. Nina Golyandina, Nikita Zvonarev (2021) Fast and stable modification of the Gauss–Newton method for low-rank signal estimation. Numerical Linear Algebra with Applications. doi: 10.1002/nla.2428
https://onlinelibrary.wiley.com/doi/10.1002/nla.2428
2. Shlemov, A., Alexandrov, T., Golyandina, N., Holloway, D., Baumgartner, S., Spirov, A. V. (2021) Quantification reveals early dynamics in Drosophila maternal gradients, PLOS ONE, V. 16, 8, e0244701, doi: 10.1371/journal.pone.0244701
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244701
3. Golyandina, N., Zhigljavsky, A. (2020) Blind deconvolution of covariance matrix inverses for autoregressive processes. Linear Algebra and Its Applications, V.593, pp.188-211. DOI 10.1016/j.laa.2020.02.005
https://www.sciencedirect.com/science/article/abs/pii/S0024379520300641
4. Golyandina, N. (2020) Particularities and commonalities of singular spectrum analysis as a method of time series analysis and signal processing. WIRES: Computational Statistics (WIREs Comput Stat), V.12, 4, e1487.
https://wires.onlinelibrary.wiley.com/doi/abs/10.1002/wics.1487
5. Zhornikova, P., Golyandina, N., Spirov, A. (2019) Noise model estimation with application to gene expression. Journal of Bioinformatics and Computational Biology (J BIOINF COMPUT BIOL, IF = 0.845) V.17, 2, paper 1950009. doi: 10.1142/S0219720019500094.