Разработка математических методов решения задач регрессионного и дисперсионного анализа.: 2022 г. этап 3

Мелас, Вячеслав Борисович (руководитель)
Шпилев, Петр Валерьевич (исполнитель)
Пепелышев, Андрей Николаевич (исполнитель)
Гученко, Роман Александрович (исполнитель)
Григорьев, Юрий Дмитриевич (исполнитель)
Алексеева, Нина Петровна (исполнитель)
Бурнаева, Эльфия Гарифовна (исполнитель)
Сальников, Дмитрий Игоревич (исполнитель)

описание

Проект посвящен актуальным проблемам регрессионного анализа: аналитическому построению оптимальных планов для полиномиальной модели без свободного члена, исследованию влияния гомотетии и сдвига области планирования на число и вид точек оптимального плана для функций регрессии с векторным аргументом, а также построению и исследованию перестановочных методов проверки гипотез о равенстве двух или нескольких распределений и разработке робастных методов дисперсионного анализа. Проект основан на применении и обобщении результатов, полученных ранее в работах руководителя и участников проекта.

описание для неспециалистов

По задаче 1
Проблема нахождения зависимости между некоторым набором величин является одной из наиболее часто встречающихся проблем, встающих перед учеными различных специальностей. Во многих случаях искомую зависимость удается описать с помощью функции, определенной с точностью до некоторого набора неизвестных параметров, и, задача, тем самым, сводится к нахождению их оценок. Существенную роль при этом играет определение оптимальных, по некоторому критерию, условий проведения экспериментов. Выбор критерия обуславливается целями исследователя. В частности, в некоторых случаях необходимо оценить наиболее точно линейную комбинацию неизвестных параметров (с-критерий). Соответствующий план называется c-оптимальным.Достаточно полное описание задачи c-оптимального планирования для регрессионных моделей с базисными функциями образующими систему Чебышева, может быть найдено в пионерской статье [1]. Но уже в данной статье было отмечено, что в общем случае решение задачи c-оптимального планирования является чрезвычайно трудным. По этой причине явные решения данной задачи, как правило, удается получить только для моделей с небольшим числом параметров, с помощью геометрических интерпретаций и теоремы Элвинга (см. [2]). Поэтому аналитические решения подобной задачи для моделей с произвольным числом параметров представляют значительный практический и теоретический интерес.
Существует несколько классов задач c-оптимального планирования, связанных с выбором вектора c и имеющих особое значение. В частности, в качестве вектора c может быть выбран вектор производных регрессионных функций в некоторой точке. В этих случаях с-оптимальный план принято называть планом оптимальным для оценивания производной.
На первом и втором этапах данного проекта был получен ряд результатов для полиномиальной модели без свободного члена. Полиномиальные модели широко используются для аппроксимации неизвестных зависимостей в различных областях приложений. Однако во многих случаях свободный член известен, и можно вычесть его из величины отклика, получив, тем самым полиномиальную модель без свободного члена. В последние годы в научной литературе уделено большое внимание построению оптимальных планов эксперимента для таких моделей. Для D-оптимальных планов, в случае некоторых типов отрезка, из которого выбираются опорные точки плана, задача решена в явном аналитическом виде (см. [3]). Значительный интерес представляют задачи построения оптимальных планов экстраполяции, оценивания производной и индивидуальных коэффициентов, впервые изученные в рамках настоящего проекта. В явном виде были найдены оптимальные планы для случая симметричных и несимметричных интервалов.
Третий этап был посвящен исследованию оптимальных планов для тригонометрических регрессионных моделей Фурье, широко использующихся на практике для описания периодических процессов. В частности, эти модели применяются в машиностроении, медицине, сельском хозяйстве, биологии. Исследованию проблемы построения оптимальных планов для этих моделей (для разных критериев оптимальности) посвящено множество работ. До настоящего времени внимание исследователей было ограничено только классической моделью, с числом неизвестных параметров 2m+1, где m порядок регрессионной модели. В классической модели, свободный член (параметр \theta_{0}) предполагается не равным нулю. Вместе с тем, на практике возникают ситуации, когда нулевой отклик, то есть начальное положение объекта экспериментирования, уже известен или эта информация не важна. В этих случаях целесообразно использовать модели без свободного члена (т.е. он предполагается равным нулю). Подобные модели до настоящего времени еще мало изучены. Для полиномиальной регрессионной модели был получен (в том числе в рамках настоящего проекта) ряд результатов для D-, c- и e_k- критериев ([3], [4], [5], [6]). Оптимальные планы для тригонометрических регрессионных моделей без свободного члена, до настоящего времени не исследовались.
На последнем этапе проекта для тригонометрических регрессионных моделей без свободного члена изучались L-оптимальные планы (т.е. планы оптимальные для оценивания различных линейных комбинации параметров модели). В качестве матриц L рассматривались диагональные матрицы с комбинацией нулей и единиц на главной диагонали. Было показано, что в случае, когда в качестве матрицы L выбирается единичная матрица, L-оптимальный план совпадает с D-оптимальным. В более общем случае (когда некоторые диагональные элементы равны нулю) доказано, что размерность задачи может быть уменьшена в случае, если оптимальный план является симметричным. Полученные результаты проиллюстрированы численными примерами.

1.Studden, W. J. (1968). Optimal Designs on Tchebycheff Points. Ann. Math. Statist. 39(5): 1435-1447.
2.Elfving, G. (1952). Optimum allocation in linear regression theory. Annals of Mathematical Statistics 23(2): 255-262.
3.W.Wong, C.Chang, and M.Huang, D-optimal designs for polynomial regression, Statistica Sinica, vol.5, p.441–458, 1995.
4.H.Dette, V.B. Melas, and P.V. Shpilev, Optimal designs for estimating individual coefficients in polynomial regression with no intercept., Statistics and Probability Letters, vol.158, p.108636, 2020.
5.V.B. Melas and P.Shpilev, Constructing c-optimal designs for polynomial regression without an intercept, Vestnik St. Petersburg University: Mathematics, vol.53, pp.223--231, 2020.
6.H.Dette, V.B. Melas, and P.V. Shpilev, A note on optimal designs for estimating the slope of a polynomial regression, Statistics and Probability Letters, vol.170, 2021.

По задаче 2
Задача нахождения оптимального плана с минимальным числом точек носителя имеет большое практическое значение, т.к. использование таких планов позволяет уменьшить расходы на проведение экспериментов. Многие авторы занимались изучением этой задачи (см., например, [1,2]). В пионерской работе [3] показано, что D-оптимальные планы всегда являются насыщенными для полиномиальных регрессионных моделей, т.е. число точек (n) носителя этих планов совпадает с числом (p) параметров модели. С другой стороны, для нелинейных по параметрам моделей, не редки случаи, в которых появляются оптимальные планы с числом опорных точек n > p. В нашей недавней работе ([4]) мы предложили называть такие случаи феноменом избыточности, а соответствующие планы – избыточными.
Большинство авторов ограничивается рассмотрением моделей с одной объясняющей переменной, в то время как многие модели, используемые на практике, являются многомерными. Эти модели намного сложнее для исследования и методы, которые работают для одномерных моделей (такие, например, как метод Янга-Стафкена и его спецификации), как правило, не могут быть обобщены на многомерные случаи.
Феномен избыточности имеет место и при локально оптимальном планировании для многомерных моделей. Аналитическое решение проблемы нахождения зависимости между количеством опорных точек локально оптимального плана и длинами проектных интервалов является очень полезным инструментом, который позволяет исследователю выбрать наиболее подходящее пространство планирования для снижения затрат на эксперимент. В наших недавних работах [4, 5, 6] мы изучали D-оптимальные планы для модели Кобба-Дугласа, используемой в микроэкономике и для моделей Айена-Питерса и Лейбла, используемых в аналитической химии. Результаты по последней модели были получены в рамках первого этапа данного проекта. Второй и третий этапы были посвящены исследованию L-оптимальных планов для моделей Кобба-Дугласа и Лейбла.
Для L-критерия оптимальности (широко используемого на практике) задача построения локально оптимального плана оказывается существенно сложнее, чем для критерия D, поскольку в этом случае точки носителя оптимального плана зависят от трех параметров модели (по сравнению с двумя для критерия D). В рамках работы, выполненной на последних этапах проекта, удалось показать, что при некоторой гомотетии интервала планирования X в X’ (T: X → X’) локально L-оптимальные планы для двумерной модели Кобба-Дугласа (и двумерной модели Лейбла) могут становиться избыточными и наоборот. Ранее локально L-оптимальные планы и влияние гомотетии интервала планирования на число точек оптимального плана для модели Кобба-Дугласа (и модели Лейбла) не изучались.

1.Fedorov V.V. (1972). “Theory of optimal experiment”. Academic Press, New York.
2.Pukelsheim F. (2006). “Optimal design of experiments”. SIAM, Philadelphia.
3.de la Garza A. (1954). “Spacing of information in polynomial regression”. Ann Math Stat 25:123–130.
4.Grigoriev Yu.D, Melas V.B. , Shpilev P.V. (2017). “Excess of locally D-optimal designs and homothetic transformations”. Vestn St. Petersb Univ 50(4), 329–336.
5.Yu. D. Grigoriev, V. B. Melas, and P. V. Shpilev (2018). Excess of locally D -optimal
designs for Cobb-Douglas model. Statistical Papers, 59(4):1425–1439.
6.Yu. D. Grigoriev, V. B. Melas, and P. V. Shpilev (2021). Excess and saturated optimal designs for the rational model. Statistical Papers, 62: 1387–1405.

По задаче 3
Проверка статистических гипотез часто является инструментом решения практических задач. Например, в практической психологии требуется сравнить эффективность методик обучения иностранному языку. Эта проблема и многие другие проблемы сводятся к задаче о проверке равенства двух распределений. Хорошо разработаны методы, когда вид распределения известен с точностью до параметра (параметрические методы) или когда распределения отличаются только параметром сдвига. Есть и универсальные методы, такие как метод Колмогорова-Смирнова, основанный на разности двух эмпирических распределений. На первом этапе проекта был разработан новый метод, предназначенный для сравнения двух распределений, принадлежащих заданному достаточно широкому классу. С помощью стохастического моделирования показано, что по мощности этот метод превосходит метод Колмогорова- Смирнова.

Хорошо известно (см., например, [1]), что в случае, когда оба распределения отличаются своими средними и являются нормальными, классический тест Стьюдента обладает несколькими оптимальными свойствами. Если распределения не являются нормальными, но все еще отличаются своими средними вместо теста Стьюдента часто используется популярная U-статистики Уилкоксона-Манна-Уитни (WMW). Однако можно показать, что, если две нормальные популяции отличаются только дисперсиями, мощность теста WMW очень мала. Если распределения произвольны, существуют некоторые универсальные методы, такие как тесты Колмогорова-Смирнова и Крамера-фон Мизеса (см. [2]) и тест Андерсона-Дарлинга (см. [3]), которые могут быть применены, но во многих случаях эти тесты могут оказаться неэффективными. Недавно Zech and Aslan [4] предложили тест, основанный на U-статистике с логарифмическим ядром, и предоставили его численное обоснование для одномерных и многомерных случаев по сравнению с несколькими альтернативными методами. Однако, насколько известно авторам, нет аналитических результатов о его асимптотической мощности. В рамках работы, выполненной на втором этапе проекта, был представлен аналогичный (но отличающийся) тест, оценки мощности которого найдены аналитически.
В теории оптимального планирования эксперимента до сих пор изучались либо планы, оптимальные для дискриминации моделей, то есть выбора одной из нескольких конкурирующих моделей, либо планы, оптимальные для оценивания параметров заданной модели. Однако на практике часто обе эти задачи решаются одновременно, что требует разработки новых критериев. В рамках третьего этапа проекта был предложен и исследован новый критерий оптимальности для одновременного решения задач дискриминации моделей и оценки их параметров. Этот критерий является обобщением критериев D-оптимальности и усеченной D-оптимальности. Было доказано, что вычисление плана эксперимента, который является оптимальным по этому критерию, может быть сведено к вычислению множества планов, которые оптимальны по более простому взвешенному критерию. Было построено несколько численных примеров, подтверждающих эффективность введенного критерия.
1. Lehmann, E. (1986). Testing Statistical Hypotheses, Probability and Statistics Series. Wiley, Hoboken
2. Buening, H. (2001). Kolmogorov-Smirnov and Cramer-von Mises type two-sample tests with various weight functions. Commun. Stat.-Simul. Comput. 30, 847–865
3. Anderson, T.W. (2011). Anderson-Darling tests of goodness-of-fit. In: Lovric, M. (ed.) International Encyclopedia of Statistical Science. Springer, Heidelberg. https://doi.org/10.1007/978-3-642-04898-2_118
4. Zech, G., Aslan, B. (2005). New test for the multivariate two-sample problem based on the concept of minimum energy. J. Stat. Comput. Simul. 75(2), 109–119

По задаче 4
Достаточно часто при проведении статистических исследований возникает проблема классификации наблюдений по неполным данным. В рамках первого этапа проекта был предложен способ построения классифицирующих функций по всевозможным подмножествам переменных с дальнейшим отбором наиболее значимых для результатов классификации. Для каждого индивида классификация осуществляется по имеющейся у него совокупности данных. Этот подход оказался эффективным средством улучшения прогнозирования в медико-биологических приложениях.
Еще одно научное направление, условно называемое симптомно-синдромальным анализом и рассмотренное в рамках первого этапа проекта, связано со структурированием категориальных данных на основе преобразований факторов над конечным полем характеристики два. Было предложено помимо обычных конечно линейных комбинаций факторов над полем характеристики два, рассматривать их полиномиальные комбинации (симптомы). В медико-биологических приложениях этот метод позволяет по отдельным сочетаниям факторов идентифицировать или подгруппы с разной степенью оиска, или с разными вариантами эффективности лечения.
Работа в рамках второго этапа была направлена на дальнейшее развитие симптомно-синдромального подхода к анализу категориальных данных. Идея метода, предлагаемого участниками проекта, заключается в поиске преобразований категориальных переменных - симптомов, обладающих некоторыми экстремальными свойствами. В основном, используется наибольшая значимость различных статистик, вид которых зависит от структуры зависимой переменной. Ранее рассматривались симптом, определяемые как линейные комбинации над конечным полем, теперь рассматриваются суперсимптомы – полиномы, которые в случае конечного поля характеристики два называются полиномами Жегалкина. Известна теорема о взаимно-однозначном соответствии полиномов Жегалкина логическим функциям, поэтому полиномы используются для организации поиска экстремальной формы, которая при необходимости выражается логической функцией. Для снижения трудоемкости метода предлагается итерационная процедура, суть которой заключается в отборе наиболее значимых симптомов меньшего порядка и использовании их в качестве независимых переменных на следующем этапе. В рамках работы по проекту изучаются причины быстрой сходимости этой процедуры на локальных экстремумах, связанные со свойством мажорированности симптомов, то есть когда произведение пары симптомов совпадает с одним из сомножителей. Показано, что проверка на мажорированность симптомов при отборе наиболее значимых может увести итерационную процедуру от локальных экстремумов. Практическое значение метода проиллюстрировано на примере анализа реальных данных для описания классов тяжести морфологического процесса в легких по сочетаниям клинических показателей.
Третий этап проекта был посвящен исследованию метода случайных подпространств для прогнозирования по неполным данным и построению оценки полного прогноза по набору частичных предсказаний. Изучены центрированные частичные предсказания. В качестве внедиагональных элементов корреляционной матрицы частичных предсказаний рассматриваются случайные числа с заданными математическим ожиданием и дисперсией. Получены аналитические выражения математического ожидания определителя и алгебраических дополнений данной матрицы. Построен класс более точных оценок полного прогноза, которые отличаются от среднего частичного предсказания множителями, зависящими от статистических параметров корреляционной матрицы частичных предсказаний. Приведены результаты моделирования и практического прогнозирования на неполных биогеографических данных.

основные результаты по проекту в целом

Этап 1 (2020 г.)
По задаче 1:
Изучены оптимальные планы экстраполяции (планы, минимизирующие дисперсию предсказания значения функции регрессии в заданной точке z, не принадлежащей отрезку планирования) для случая симметричных отрезков. Решение существенно различается для нечетных и четных степеней полиномиальной модели. Для отрезка [-1,1] в случае нечетной степени многочлена m= 2k+1 доказано, что есть в точности два оптимальных плана. Опорными точками одного плана являются старшие 2k+1 из 2k+2 экстремальных точек многочлена Чебышева первого рода 2k+1–ой степени, а другого – младшие 2k+1 точек. Весовые коэффициенты пропорциональны величинам |L_i (z) |, где L_i – интерполяционные многочлены Лагранжа без свободного члена, построенные по точкам плана. Для отрезка [-a,a] решение получается преобразованием точек плана: x_i нужно заменить на ax_i,i=1,…,2k+1. Для чётных степеней m=2k для отрезка [-1,1] оптимальный план определяется единственным образом. Опорными точками оптимального плана экстраполяции являются экстремальные точки многочлена T_k (x^2 (1 + cos(π/2k) )–cos⁡(π/2k) ). Весовые коэффициенты находятся так же, как и в случае нечетных степеней. А для произвольного симметричного отрезка нужно применить то же самое преобразование точек плана: x_i нужно заменить на ax_i, i=1,…,2k. Отметим, что от выбора точки экстраполяции зависят только весовые коэффициенты оптимальных планов экстраполяции.
Изучены планы, оптимальные для оценивания производной в заданной точке z. Эта задача оказывается более сложной, чем задача построения оптимальных планов экстраполяции. Для оптимальных планов оценивания производной, как и для планов экстраполяции, решение существенно различается для нечетных и четных степеней и находится в явном виде. Но явное решение возможно не для всех точек z, а лишь для точек в некоторых интервалах. Для нечетных степеней, множество точек оптимального плана можно охарактеризовать следующим образом: Это есть множество экстремальных точек многочлена Чебышева степени 2k+1 за вычетом точки, зависящей от интервала, которому принадлежит z. Для четных степеней носитель оптимального плана также находится аналитически, но не для всех значений z. Так же, как и в случае оптимальных планов экстраполяции в явном виде планы получены только для симметричных промежутков.

По задаче 2:
Исследовано влияние гомотетии области планирования на число опорных точек оптимального плана при фиксированных значениях параметров двумерной, нелинейной регрессионной дробно-рациональной модели Лейбла (Laible J. R.,1959). Данная модель используется в аналитической химии (см., например, Аткинсон и Хантер, 1968) для описания каталитической реакции. Показано, что для этой модели существует два типа оптимальных планов: насыщенные (т.е. планы, число точек носителя которых равно числу параметров модели) и избыточные (число точек носителя больше числа параметров модели). Оптимальные планы с минимальным числом точек найдены в явном виде. Для нахождения планов с большим числом точек использованы численные методы.

По задаче 3:
Предложен новый критерий проверки гипотезы о равенстве двух распределений в случае, когда оба распределения принадлежат широкому классу распределений, включающих нормальное распределение и распределение Коши. Для нахождения критического значения используется метод случайных перестановок. От аналогичного метода, предложенного в работе (Zech and Aslan, 2005), этот метод отличается выбором вспомогательной функции g(x)= ln(1+ x^2) вместо g(x)=ln (|x|). Показано с помощью статистического моделирования, что в случае нормального распределения, распределения Коши и других распределений, для которых математическое ожидание ln(1+ v^2) конечно, мощность предлагаемого метода оказывается больше мощности метода из упомянутой работы и ряда других альтернативных методов.
Получена предельная теорема для асимптотического распределения величины критерия. Доказано, что в случае, когда сравниваемые распределения принадлежат рассматриваемому классу, это распределение является квадратом нормального распределения.

По задаче 4:
1) Разработан численный метод оценки параметров линейной комбинации переменных, приводящей к наибольшей значимости заданного критерия (эффекты главных факторов, факторов динамики или их взаимодействия), а также аналитический метод через решение характеристического уравнения, образованного соответствующими матрицами сумм и произведений, построенных с учетом централизирующих модель поправок. Создано соответствующее программное обеспечение, которое применено для решения реальной задачи выявления совокупности ведущих факторов, влияющих на многолетнюю динамику больных, перенесших кардиологическое оперативное вмешательство.
2) Исследована задача оценки полного предсказания по частным прогнозам, построенным по всевозможным подмножествам переменных. Было получено аналитическое выражение аппроксимации полного предикта через линейную комбинацию частных. Точность аппроксимации определялась вариабельностью значимостей частных предсказаний и вариабельностью коэффициентов корреляции между ними. Результаты протестированы на модельных выборках и применены для решения практической задачи прогнозирования численности морских рачков.
3) Изучена задача структурирования категориальных данных на основе преобразований факторов над конечным полем. Предложено помимо обычных конечно линейных комбинаций факторов над полем характеристики два рассматривать их полиномиальные комбинации (симптомы). В результате удалось параметризовать логические комбинации факторов и выделить наиболее информативные конструкции на основе простого алгоритма, предложенного участниками проекта.

Этап 2(2021 г.)

По задаче 1:
В рамках данного проекта на первом этапе были изучены планы для оценивания производной полиномиальной регрессионной модели без свободного члена в заданной точке z на интервале [-1,1] (Holger Dette, Melas, V.B., Shpilev, P.V. (2020)). Задача второго этапа состояла в изучении оптимальных планы для оценивания производной для данной модели в заданной точке z на отрезке [0, a], a>0. Полученные результаты показывают, что для интервала планирования [0, a], также, как и для симметричного случая, оптимальный план может быть найден в явном виде только для z принадлежащего некоторому подмножеству интервала планирования (или, говоря более конкретно, для такого множества значений z, для которого точки плана являются экстремальными точками Чебышевского многочлена). С другой стороны, для случая интервала на положительной полуоси исследуемая задача оказалась проще. Во-первых, в этом случае вид плана не зависит от четности или нечетности порядка модели (в отличие от случая симметричного интервала). Во-вторых, существенно проще определяются границы отрезков, для которых точки плана являются экстремальными точками Чебышевского многочлена: эти границы находятся как нули весов плана, рассматриваемых, как функции от z (в отличии, от случая симметричного интервала, для которого эти границы определялись с помощью ряда вспомогательных многочленов).
Кроме того, участниками проекта был получен явный вид планов, оптимальных для оценивания индивидуальных коэффициентов полиномиальной регрессионной модели без свободного члена.

По задаче 2:
Исследовано влияние гомотетии области планирования на число опорных точек A-оптимального плана (т.е. плана, оптимального для оценивания линейной комбинации параметров модели) при фиксированных значениях параметров двумерной, экспоненциальной регрессионной модели Кобба-Дугласа, которая используется в микроэкономике (Cobb, C. W.; Douglas, P. H. "A Theory of Production" (1928)). Показано, что для этой модели существует два типа оптимальных планов: насыщенные (т.е. планы, число точек носителя которых равно числу параметров модели) и избыточные (число точек носителя больше числа параметров модели). В нашей предыдущей работе (Grigoriev, Y.D., Melas, V.B., Shpilev, P.V. (2018)) мы исследовали D-оптимальные планы для данной модели. Задача построения A-оптимальных планов существенно сложнее. Показано, что существует 3 типа насыщенных планов (тип плана зависит от области значений параметров модели). При этом точки оптимального плана зависят от всех параметров модели (в отличии от случая D-оптимального плана). В общем случае (для прямоугольной области планирования) представлены упрощенные системы нелинейных уравнений, решениями которых являются точки и веса оптимального плана. В случае, если область планирования – квадрат, оптимальные планы 3-его типа найдены в явном виде. Для нахождения избыточных планов предлагается использовать численные методы. Полученные результаты проиллюстрированы численными примерами.

По задаче 3:
Проведено исследование теста для проверки гипотезы о равенстве двух распределений, предложенного участниками проекта. Этот тест, основан на U-статистике с логарифмическим ядром, он отличается от аналогичного теста из работы Zech and Aslan выбором вспомогательной функции. Для случая, когда распределения отличаются только сдвигом, а вспомогательная функция является логарифмом плотности Коши, на предыдущем этапе было показано, что асимптотическое распределение статистики критерия является квадратом нормального. Этот результат обобщен на случай вспомогательных функций общего вида. Кромке того, найдены явные формулы для среднего и дисперсии этого распределения. Результаты статистического моделирования для нормального распределения, распределений Коши и Лапласа показывают, что эти формулы обеспечивают хорошее приближение для мощности теста даже при малых размерах выборок. Получение асимптотических формул основано на законе больших чисел и центральной предельной теореме для U-статистик, а также на лемме, полученной участниками проекта, позволяющей преобразовать выражение введенного статистического критерия при специальном выборе вспомогательной функции к квадрату разности средних значений.

По задаче 4:
1) Доказано, что матрица решений итерационной процедуры отбора наиболее информативных полиномов над конечным полем, образованных дихотомическими факторами, при отсутствии контроля их принадлежности одному и тому же подпространству или линейному пространству, образованному полиномами специального вида имеет единичный ранг.
2) Изучены распределения, энтропия и другие информационные свойства конечных проективных подпространств (синдромов), параметризуемых при помощи импульсных последовательностей с базовыми элементами в виде полиномов Жегалкина над полем Галуа характеристики два (симптомов). Доказано, что суперсиндромы, полученные при рассмотрении в качестве базовых элементов мультипликативного синдрома, замкнуты.
3) Полученные результаты использованы для обоснования сходимости итерационной процедуры (ИП), в которой наиболее информативные симптомы, отобранные из частичных суперсиндромов меньшей размерности, вновь подаются на вход. Показано, что стационарное состояние ИП достигается в случае принадлежности всех элементов входного множества или одному и тому же частичному суперсиндрому, или мажорированному синдрому. Благодаря ИП удается выделять наиболее информативные симптомы из большой совокупности переменных с меньшей трудоемкостью. На примере из фтизиатрии показано, каким образом при помощи симптомного анализа можно улучшить специфичность классификации.

Этап 3(2022 г.)

По задаче 1:
В рамках третьего этапа проекта были изучены L-оптимальное планы для тригонометрической регрессионной модели Фурье без свободного члена на интервале [-pi,pi]. В работе рассматривается диагональные матрицы L с комбинацией нулей и единиц на главной диагонали. Показано, что в случае, когда в качестве матрицы L выбирается единичная матрица, L-оптимальный план совпадает с D-оптимальным. В более общем случае (когда некоторые диагональные элементы равны нулю) показано, что размерность задачи может быть уменьшена в случае, если оптимальный план является симметричным. Полученные результаты проиллюстрированы на примере задачи построения 2-х L-оптимальных планов для тригонометрической модели порядка 12 (m=12), которая сводится к задаче построения планов для моделей порядка 3 и 4 соответственно.

По задаче 2:
Исследовано влияние гомотетии области планирования на число опорных точек A-оптимального плана (т.е. плана, оптимального для оценивания линейной комбинации параметров модели) при фиксированных значениях параметров двумерной, дробно-рациональной регрессионной модели Лейбла (Laible J. R.,1959). Данная модель используется в аналитической химии (см., например, Аткинсон и Хантер, 1968) для описания каталитической реакции. Показано, что для этой модели существует два типа оптимальных планов: насыщенные (т.е. планы, число точек носителя которых равно числу параметров модели) и избыточные (число точек носителя больше числа параметров модели). В нашей предыдущей работе (Grigoriev, Y.D., Melas, V.B., Shpilev, P.V. (2021)) мы исследовали D-оптимальные планы для данной модели. Задача построения A-оптимальных планов существенно сложнее. Показано, что существует 3 типа насыщенных планов (тип плана зависит от области значений параметров модели). При этом точки оптимального плана зависят от всех параметров модели (в отличии от случая D-оптимального плана). Для определения границ соответствующих областей значений параметров (определяющих тип оптимального плана) используется функциональный подход, предложенный и развиваемый в работах руководителя проекта (см., например, Melas V.B., 2006), идея которого заключается в разложении неявно заданных функций в ряд Тейлора. Данный подход показал высокую эффективность и точность при определении границ вышеозначенных областей. Полученные результаты проиллюстрированы численными примерами.

По задаче 3:
Полученная на предыдущем этапе формула для асимптотической мощности введенного руководителем и участниками проекта критерия проверки гипотез о равенстве двух распределений обобщена на случай распределений общего вида, отличающихся сдвигом и (или) параметром масштаба.
Проведено исследование задачи об оптимальном выборе вспомогательной функции для введенного критерия. Численно показано, что стандартное значение параметра вспомогательной функции обеспечивает наибольшую с точностью до второго знака асимптотическую мощность в случае, когда сравниваются выборки из распределений Коши, но отклонения от него слабо влияют на величину мощности. С помощью статистического моделирования и с помощью формулы для асимптотической дисперсии показано, что из выбранных распределений (нормального, Лапласа и Коши), последнее является наименее благоприятным.

По задаче 4:
1) Исследован метод случайных подпространств для прогнозирования по неполным данным и построение оценки полного прогноза по набору частичных предсказаний.
2) Изучены центрированные частичные предсказания.
3) Получены аналитические выражения математического ожидания определителя и алгебраических дополнений данной матрицы.
4) Построен класс более точных оценок полного прогноза, которые отличаются от среднего частичного предсказания множителями, зависящими от статистических параметров корреляционной матрицы частичных предсказаний.
5) Приведены результаты моделирования и практического прогнозирования на неполных биогеографических данных.

основные результаты по этапу (подробно)

По задаче 1:
В рамках третьего этапа проекта были изучены L-оптимальное планы для тригонометрической регрессионной модели Фурье без свободного члена на интервале [-pi,pi]. В работе рассматривается диагональные матрицы L с комбинацией нулей и единиц на главной диагонали. Показано, что в случае, когда в качестве матрицы L выбирается единичная матрица, L-оптимальный план совпадает с D-оптимальным. В более общем случае (когда некоторые диагональные элементы равны нулю) показано, что размерность задачи может быть уменьшена в случае, если оптимальный план является симметричным. Полученные результаты проиллюстрированы на примере задачи построения 2-х L-оптимальных планов для тригонометрической модели порядка 12 (m=12), которая сводится к задаче построения планов для моделей порядка 3 и 4 соответственно.

По задаче 2:
Исследовано влияние гомотетии области планирования на число опорных точек A-оптимального плана (т.е. плана, оптимального для оценивания линейной комбинации параметров модели) при фиксированных значениях параметров двумерной, дробно-рациональной регрессионной модели Лейбла (Laible J. R.,1959). Данная модель используется в аналитической химии (см., например, Аткинсон и Хантер, 1968) для описания каталитической реакции. Показано, что для этой модели существует два типа оптимальных планов: насыщенные (т.е. планы, число точек носителя которых равно числу параметров модели) и избыточные (число точек носителя больше числа параметров модели). В нашей предыдущей работе (Grigoriev, Y.D., Melas, V.B., Shpilev, P.V. (2021)) мы исследовали D-оптимальные планы для данной модели. Задача построения A-оптимальных планов существенно сложнее. Показано, что существует 3 типа насыщенных планов (тип плана зависит от области значений параметров модели). При этом точки оптимального плана зависят от всех параметров модели (в отличии от случая D-оптимального плана). Для определения границ соответствующих областей значений параметров (определяющих тип оптимального плана) используется функциональный подход, предложенный и развиваемый в работах руководителя проекта (см., например, Melas V.B., 2006), идея которого заключается в разложении неявно заданных функций в ряд Тейлора. Данный подход показал высокую эффективность и точность при определении границ вышеозначенных областей. Полученные результаты проиллюстрированы численными примерами.

По задаче 3:
Полученная на предыдущем этапе формула для асимптотической мощности введенного руководителем и участниками проекта критерия проверки гипотез о равенстве двух распределений обобщена на случай распределений общего вида, отличающихся сдвигом и (или) параметром масштаба.
Проведено исследование задачи об оптимальном выборе вспомогательной функции для введенного критерия. Численно показано, что стандартное значение параметра вспомогательной функции обеспечивает наибольшую с точностью до второго знака асимптотическую мощность в случае, когда сравниваются выборки из распределений Коши, но отклонения от него слабо влияют на величину мощности. С помощью статистического моделирования и с помощью формулы для асимптотической дисперсии показано, что из выбранных распределений (нормального, Лапласа и Коши), последнее является наименее благоприятным.

По задаче 4:
1) Исследован метод случайных подпространств для прогнозирования по неполным данным и построение оценки полного прогноза по набору частичных предсказаний.
2) Изучены центрированные частичные предсказания.
3) Получены аналитические выражения математического ожидания определителя и алгебраических дополнений данной матрицы.
4) Построен класс более точных оценок полного прогноза, которые отличаются от среднего частичного предсказания множителями, зависящими от статистических параметров корреляционной матрицы частичных предсказаний.
5) Приведены результаты моделирования и практического прогнозирования на неполных биогеографических данных.

основные результаты по этапу (кратко)

Для одномерной тригонометрической модели Фурье без свободного члена исследована задача построения L-оптимальных планов. Показано, что в случае, когда L= I (т.е. L –единичная матрицы) L-оптимальный план совпадает с D-оптимальным. В более общем случае (когда некоторые диагональные элементы равны нулю) показано, что размерность задачи может быть уменьшена, если оптимальный план является симметричным.

Для двумерной нелинейной по параметрам дробно-рациональной модели Лэйбла, используемой в аналитической химии, исследована задача построения L- оптимальных планов. Показано, что для этой модели существуют два типа оптимальных планов: насыщенные (т.е. планы с числом точек носителя, равным числу параметров модели) и избыточные (т.е. планы с числом точек носителя, большим, чем количество параметров модели) и что при некоторой гомотетии пространства планирования, локально L-оптимальные планы могут изменить тип с насыщенного на избыточный и наоборот. Предложено аналитическое решение задачи нахождения зависимости между числом точек носителя оптимального плана и значениями параметров модели основанное на применении функционального подхода. Исследована L-эффективность D-оптимальных планов.

Полученная на предыдущем этапе формула для асимптотической мощности введенного руководителем и участниками проекта критерия проверки гипотез о равенстве двух распределений, обобщена на случай распределений общего вида, отличающихся сдвигом и (или) параметром масштаба. Проведено исследование задачи об оптимальном выборе параметра вспомогательной функции для введенного критерия.

Исследован метод случайных подпространств для прогнозирования по неполным данным и построение оценки полного прогноза по набору частичных предсказаний. Изучены центрированные частичные предсказания. В качестве внедиагональных элементов корреляционной матрицы частичных предсказаний рассматриваются случайные числа с заданными математическим ожиданием и дисперсией. Получены аналитические выражения математического ожидания определителя и алгебраических дополнений данной матрицы. Построен класс более точных оценок полного прогноза, которые отличаются от среднего частичного предсказания множителями, зависящими от статистических параметров корреляционной матрицы частичных предсказаний. Приведены результаты моделирования и практического прогнозирования на неполных биогеографических данных.

описание вклада в работу каждого из участников (учётная форма ЦИТиС)

Задача 1: Построение и исследование L-оптимальных планов в тригонометрической модели Фурье без свободного члена на симметричном отрезке [-pi,pi].

Результаты по задаче 1 получены совместно следующими членами коллектива:
Шпилев Петр Валерьевич (50%): найден аналитический вид точек и весов планов; подготовка работы к публикации.
Мелас Вячеслав Борисович (30%) : введено понятие "абсолютно симметричного плана", сформулирована гипотеза о виде оптимального плана в общем случае;
Роман Александрович Гученко (20%) подготовлены примеры и иллюстрации для статьи.
==============

Задача 2: Построение в аналитическом виде А-оптимального плана для двумерной, нелинейной по параметрам модели Лейбла. Исследование некоторых специальных случаев. Определение областей планирования, на которых А-оптимальный план сохраняет свою структуру

Результаты по задаче 2 получены совместно следующими членами коллектива:
Мелас Вячеслав Борисович (30%): предложен новый подход к построению границ областей значений параметров, влияющих на вид оптимального плана;
Шпилев Петр Валерьевич(50%): найден аналитический вид точек и весов планов; исследовано влияние гомотетии области планирования на точки и веса оптимального плана.
Юрий Дмитриевич Григорьев (20%): предложен метод численного нахождения избыточных планов
==============

Задача 3: Исследование задачи об оптимальном выборе вспомогательной функции для критерия проверки равенства двух распределений, введенного участниками проекта, в различных классах функций. В основу этих исследований могут быть положены уже ранее (на предыдущих этапах) полученные результаты об асимптотическом распределении критерия для широкого класса вспомогательных функций.

Результаты по задаче 3 получены совместно следующими членами коллектива:
Мелас Вячеслав Борисович (50%): полученная на предыдущем этапе формула для асимптотической мощности, обобщена на случай распределений общего вида, отличающихся сдвигом и (или) параметром масштаба..
Дмитрий Игоревич Сальников (30%): проведено исследование задачи об оптимальном выборе вспомогательной функции для введенного критерия. Численно показано, что стандартное значение параметра вспомогательной функции обеспечивает наибольшую с точностью до второго знака асимптотическую мощность в случае, когда сравниваются выборки из распределений Коши, но отклонения от него слабо влияют на величину мощности.
Андрей Николаевич Пепелышев(20%): с помощью статистического моделирования и с помощью формулы для асимптотической дисперсии показано, что из выбранных распределений (нормального, Лапласа и Коши), последнее является наименее благоприятным.
==============
Задача 4:
1) Получение аналитических выражений оценки для полного прогноза частичными предсказаниями с учетом их дисперсий и статистических свойств параметров их взаимной коррелированности.
2) Рассмотрение четырех вариантов оценок в зависимости от разных допущений: наличия или отсутствия одинаковой взаимной коррелированности, наличия или отсутствия равномерной дисперсии предсказаний.
3) Исследование данных оценок на предмет несмещенности и эффективности при помощи статистического моделирования. Обоснование преимущества полученных оценок над обычным средним частичным предсказанием.

Результаты по задаче 4 получены совместно следующими членами коллектива:
Нина Петровна Алексеева (80%): получены основные теоретические результаты.
Эльфия Гарифовна Бурнаева (20%): программное сопровождение.

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается

Акроним	RFBR_a_2020 - 3
Статус	Завершено
Эффективные даты начала/конца	25/03/22 → 28/12/22

Области исследований

Стохастическое моделирование, многомерные нелинейные регрессионные модели, перестановочные методы проверки гипотез, робастные методы дисперсионного анализа

ID: 93794764