Разработка математических методов решения задач регрессионного и дисперсионного анализа.: 2021 г. этап 2

Melas, Viacheslav (PI)
Shpilev, Petr (CoI)
Пепелышев, Андрей Николаевич (CoI)
Guchenko, Roman (CoI)
Григорьев, Юрий Дмитриевич (CoI)
Alekseeva, Nina (CoI)
Burnaeva, Elfiia (CoI)
Salnikov, Dmitrii (CoI)

Description

Проект посвящен актуальным проблемам регрессионного анализа: аналитическому построению оптимальных планов для полиномиальной модели без свободного члена, исследованию влияния гомотетии и сдвига области планирования на число и вид точек оптимального плана для функций регрессии с векторным аргументом, а также построению и исследованию перестановочных методов проверки гипотез о равенстве двух или нескольких распределений и разработке робастных методов дисперсионного анализа. Проект основан на применении и обобщении результатов, полученных ранее в работах руководителя и участников проекта.

Layman's description

По задаче 1.

Проблема нахождения зависимости между некоторым набором величин является одной из наиболее часто встречающихся проблем, встающих перед учеными различных специальностей. Во многих случаях искомую зависимость удается описать с помощью функции, определенной с точностью до некоторого набора неизвестных параметров, и, задача, тем самым, сводится к нахождению их оценок. Существенную роль при этом играет определение оптимальных, по некоторому критерию, условий проведения экспериментов. Выбор критерия обуславливается целями исследователя. В частности, в некоторых случаях необходимо оценить наиболее точно линейную комбинацию неизвестных параметров (с-критерий). Соответствующий план называется c-оптимальным.
На данном этапе проекта были найдены в явном виде два типа c-оптимальных планов: планы, оптимальные для оценивания индивидуальных коэффициентов полиномиальной регрессионной модели без свободного члена на симметричном отрезке и планы, оптимальные для оценивания производной на отрезке с положительными концами.

По задаче 2
Задача нахождения оптимального плана с минимальным числом точек носителя имеет большое практическое значение, так как использование таких планов позволяет уменьшить расходы на проведение экспериментов. Многие авторы занимались изучением этой задачи. В пионерской работе de la Garza A. (1954) показано, что D-оптимальные планы всегда являются насыщенными для полиномиальных регрессионных моделей, т.е. число точек (n) носителя этих планов совпадает с числом (p) параметров модели. С другой стороны, для нелинейных по параметрам моделей, не редки случаи, в которых появляются оптимальные планы с числом опорных точек n > p. В нашей недавней работе ([4]) мы предложили называть такие случаи феноменом избыточности, а соответствующие планы – избыточными.
Для L-критерия оптимальности (широко используемого на практике) задача построения локально оптимального плана оказывается существенно сложнее, чем для D-критерия, поскольку в этом случае точки носителя оптимального плана зависят от трех параметров модели (по сравнению с двумя для критерия D). В рамках работы, выполненной на текущем этапе проекта, удалось показать, что при некоторой гомотетии интервала планирования X в X’ (T: X → X’) локально L-оптимальные планы для двумерной модели Кобба-Дугласа могут становиться избыточными и наоборот. Ранее локально L-оптимальные планы и влияние гомотетии интервала планирования на число точек оптимального плана для модели Кобба-Дугласа не изучались.

По задаче 3
В проекте исследуется классическая задача проверки гипотез о равенстве двух распределений. Хорошо известно, что в случае, когда оба распределения отличаются только своими средними и являются нормальными, классический тест Стьюдента обладает рядом оптимальных свойств. Если распределения не являются нормальными, но все еще отличаются только сдвигом, вместо теста Стьюдента часто используется U-статистика Уилкоксона-Манна-Уитни (WMW). Однако можно показать, что, если две нормальные популяции отличаются только дисперсиями, мощность теста WMW очень мала. Если распределения произвольны, существуют некоторые универсальные методы, такие как тесты Колмогорова-Смирнова и Крамера-фон Мизеса и тест Андерсона-Дарлинга, которые могут быть применены, но во многих случаях эти тесты могут оказаться неэффективными. Недавно Zech and Aslan (2005) предложили тест, основанный на U-статистике с логарифмическим ядром, и представили его численное обоснование для одномерных и многомерных случаев по сравнению с несколькими альтернативными методами. Однако, насколько известно авторам, до сих пор нет аналитических результатов о его асимптотической мощности. В рамках проекта был предложен аналогичный (но отличающийся) тест. На данном этапе были аналитически найдены оценки мощности этого критерия.

По задаче 4
Работа направлена на дальнейшее развитие симптомно-синдромального подхода к анализу категориальных данных. Идея метода, предлагаемого участниками проекта, заключается в поиске преобразований категориальных переменных - симптомов, обладающих некоторыми экстремальными свойствами. В основном, используется наибольшая значимость различных статистик, вид которых зависит от структуры зависимой переменной. Ранее рассматривались симптом, определяемые как линейные комбинации над конечным полем, теперь рассматриваются суперсимптомы – полиномы, которые в случае конечного поля характеристики два называются полиномами Жегалкина. Известна теорема о взаимно-однозначном соответствии полиномов Жегалкина логическим функциям, поэтому полиномы используются для организации поиска экстремальной формы, которая при необходимости выражается логической функцией. Для снижения трудоемкости метода предлагается итерационная процедура, суть которой заключается в отборе наиболее значимых симптомов меньшего порядка и использовании их в качестве независимых переменных на следующем этапе.

Key findings for the project

Key findings for the stage (in detail)

По задаче 1:
В рамках данного проекта на первом этапе были изучены планы для оценивания производной полиномиальной регрессионной модели без свободного члена в заданной точке z на интервале [-1,1] (Holger Dette, Melas, V.B., Shpilev, P.V. (2020)). Задача второго этапа состояла в изучении оптимальных планы для оценивания производной для данной модели в заданной точке z на отрезке [0, a], a>0. Полученные результаты показывают, что для интервала планирования [0, a], также, как и для симметричного случая, оптимальный план может быть найден в явном виде только для z принадлежащего некоторому подмножеству интервала планирования (или, говоря более конкретно, для такого множества значений z, для которого точки плана являются экстремальными точками Чебышевского многочлена). С другой стороны, для случая несимметричного интервала исследуемая задача оказалась проще. Во-первых, в этом случае вид плана не зависит от четности или нечетности порядка модели (в отличии от случая симметричного интервала). Во-вторых, существенно проще определяются границы отрезков, для которых точки плана являются экстремальными точками Чебышевского многочлена: эти границы находятся как нули весов плана, рассматриваемых, как функции от z (в отличии, от случая симметричного интервала, для которого эти границы определялись с помощью ряда вспомогательных многочленов).
Кроме того, участниками проекта был получен явный вид планов, оптимальных для оценивания индивидуальных коэффициентов полиномиальной регрессионной модели без свободного члена.

По задаче 2:
Исследовано влияние гомотетии области планирования на число опорных точек A-оптимального плана (т.е. плана, оптимального для оценивания линейной комбинации параметров модели) при фиксированных значениях параметров двумерной, экспоненциальной регрессионной модели Кобба-Дугласа, которая используется в микроэкономике (Cobb, C. W.; Douglas, P. H. "A Theory of Production" (1928)). Показано, что для этой модели существует два типа оптимальных планов: насыщенные (т.е. планы, число точек носителя которых равно числу параметров модели) и избыточные (число точек носителя больше числа параметров модели). В нашей предыдущей работе (Grigoriev, Y.D., Melas, V.B., Shpilev, P.V. (2018)) мы исследовали D-оптимальные планы для данной модели. Задача построения A-оптимальных планов существенно сложнее. Показано, что существует 3 типа насыщенных планов (тип плана зависит от области значений параметров модели). При этом точки оптимального плана зависят от всех параметров модели (в отличии от случая D-оптимального плана). В общем случае (для прямоугольной области планирования) представлены упрощенные системы нелинейных уравнений, решениями которых являются точки и веса оптимального плана. В случае, если область планирования – квадрат, оптимальные планы 3-его типа найдены в явном виде. Для нахождения избыточных планов предлагается использовать численные методы. Полученные результаты проиллюстрированы численными примерами.

Ключевая идея развиваемого нами нового подхода, заключается в использовании теоремы эквивалентности не только для построения опорных точек и весов оптимальных планов, но и для нахождения областей, определяющих структуру этих планов. Аналитическое решение задачи нахождения зависимости между числом опорных точек локально оптимального плана и областями планирования является очень полезным инструментом, позволяющим исследователю выбрать наиболее подходящую область планирования для снижения экспериментальных затрат.

По задаче 3:

Проведено исследование теста для проверки гипотезы о равенстве двух распределений, предложенного участниками проекта. Этот тест, основан на U-статистике с логарифмическим ядром, он отличается от аналогичного теста из работы Zech and Aslan выбором вспомогательной функции. Для случая, когда распределения отличаются только сдвигом, а вспомогательная функция является логарифмом плотности Коши, на предыдущем этапе было показано, что асимптотическое распределение статистики критерия является квадратом нормального. Этот результат обобщен на случай вспомогательных функций общего вида. Кромке того, найдены явные формулы для среднего и дисперсии этого распределения. Результаты статистического моделирования для нормального распределения, распределений Коши и Лапласа показывают, что эти формулы обеспечивают хорошее приближение для мощности теста даже при малых размерах выборок. Получение асимптотических формул основано на законе больших чисел и центральной предельной теореме для U-статистик, а также на лемме, полученной участниками проекта, позволяющей преобразовать выражение введенного статистического критерия при специальном выборе вспомогательной функции к квадрату разности средних значений.

По задаче 4:
1)Доказано, что матрица решений итерационной процедуры отбора наиболее информативных полиномов над конечным полем, образованных дихотомическими факторами, при отсутствии контроля их принадлежности одному и тому же подпространству или линейному пространству, образованному полиномами специального вида имеет единичный ранг.
2)Изучены распределения, энтропия и другие информационные свойства конечных проективных подпространств (синдромов), параметризуемых при помощи импульсных последовательностей с базовыми элементами в виде полиномов Жегалкина над полем Галуа характеристики два (симптомов). Доказано, что суперсиндромы, полученные при рассмотрении в качестве базовых элементов мультипликативного синдрома, замкнуты.
3)Полученные авторами результаты использованы для обоснования сходимости итерационной процедуры (ИП), в которой наиболее информативные симптомы, отобранные из частичных суперсиндромов меньшей размерности, вновь подаются на вход. Показано, что стационарное состояние ИП достигается в случае принадлежности всех элементов входного множества или одному и тому же частичному суперсиндрому, или мажорированному синдрому. Благодаря ИП удается выделять наиболее информативные симптомы из большой совокупности переменных с меньшей трудоемкостью. На примере из фтизиатрии показано, каким образом при помощи симптомного анализа можно улучшить специфичность классификации.

Key findings for the stage (summarized)

По задаче 1:

Для одномерной полиномиальной модели без свободного члена построены в явном виде оптимальные планы для оценивания производной на несимметричном интервале в заданной точке z.

По задаче 2:

Для двумерной нелинейной по параметрам экспоненциальной модели Кобба-Дугласа, используемой в микроэкономике, исследована задача построения L-оптимальных планов. Показано, что для этой модели существуют два типа оптимальных планов: насыщенные (т.е. планы с числом точек носителя, равным числу параметров модели) и избыточные (т.е. планы с числом точек носителя, большим, чем количество параметров модели) и что при некоторой гомотетии пространства планирования, локально L-оптимальные планы могут изменить тип с насыщенного на избыточный и наоборот. В некоторых частных случаях оптимальные насыщенные планы найдены в явном виде. Предложено аналитическое решение задачи нахождения зависимости между числом точек носителя оптимального плана и значениями параметров модели.

По задаче 3:

Исследована задача проверки гипотезы о равенстве двух распределений в классе моделей. Для проверки данной гипотезы предложен новый тест. Доказано аналитически и методом стохастического моделирования, что предложенный тест обладает высокой эффективностью. Для случая нормального распределения и распределения Коши, которые отличаются только сдвигом, асимптотическая мощность теста примерно такая же, как для тестов Уилкоксона-Манна-Уитни, Колмогорова-Смирнова и Андерсона-Дарлинга. Но если параметры распределений имеют разные масштабы, мощность нового теста значительно выше.

По задаче 4:

Изучены распределения, энтропия и другие информационные свойства конечных проективных подпространств (синдромов), параметризуемых при помощи импульсных последовательностей с базовыми элементами в виде полиномов Жегалкина над полем характеристики два (симптомов). Доказано, что суперсиндромы, полученные при рассмотрении в качестве базовых элементов мультипликативного синдрома, замкнуты. Классы симптомов, упорядоченные по мажорированию, то есть нейтральности одного из симптомов при конъюнкции, образуют мажорированный синдром, для которого доказано свойство идентичности синдрома и суперсиндрома. Полученные результаты используются для обоснования сходимости итерационной процедуры (ИП), в которой наиболее информативные симптомы, отобранные из частичных суперсиндромов меньшей размерности, вновь подаются на вход. Стационарное состояние ИП достигается в случае принадлежности всех элементов входного множества или одному и тому же частичному суперсиндрому, или мажорированному синдрому. Благодаря ИП удается выделять наиболее информативные симптомы из большой совокупности переменных с меньшей трудоемкостью. На примере из фтизиатрии показано, каким образом при помощи симптомного анализа можно улучшить специфичность классификации.

Academic ownership of participants (text description)

Задача 1: Построение и исследование оптимальных планов оценивания индивидуальных коэффициентов в полиномиальной регрессионной модели без свободного члена на симметричном отрезке. Построение и исследование оптимальных планов оценивания производной для случая промежутков с положительными концами.

Результаты по задаче 1 получены совместно следующими членами коллектива:
Мелас Вячеслав Борисович (50%): найден аналитический вид точек и весов планов;
Шпилев Петр Валерьевич (30%): разработан алгоритм нахождения точек и весов планов для «нечебышевского случая»; подготовка работы к публикации.
Роман Александрович Гученко (20%) подготовлены примеры и иллюстрации для статьи.
==============

Задача 2: Построение в аналитическом виде А-оптимального плана для двумерной, нелинейной по параметрам модели Кобба-Дугласа. Исследование некоторых специальных случаев. Определение областей планирования, на которых А-оптимальный план сохраняет свою структуру

Результаты по задаче 2 получены совместно следующими членами коллектива:
Мелас Вячеслав Борисович (30%): предложен новый подход к построению границ областей значений параметров, влияющих на вид оптимального плана;
Шпилев Петр Валерьевич(50%): найден аналитический вид точек и весов планов; исследовано влияние гомотетии области планирования на точки и веса оптимального плана.
Юрий Дмитриевич Григорьев (20%): предложен метод численного нахождения избыточных планов
==============

Задача 3: Аналитическое и численное исследование асимптотической мощности критериев для сравнения двух выборок с распределением Коши и нормальным распределением.

Результаты по задаче 3 получены совместно следующими членами коллектива:
Мелас Вячеслав Борисович (60%): Предложен новый тест для проверки гипотезы о равенстве двух распределений. Найдены явные формулы для среднего и дисперсии распределение статистики критерия.
Дмитрий Игоревич Сальников (25%): доказана лемма, позволяющая преобразовать выражение введенного статистического критерия при специальном выборе вспомогательной функции к квадрату разности средних значений; подготовка работы к публикации.
Андрей Николаевич Пепелышев(15%) представлены примеры и иллюстрации для статьи.
==============
Задача 4: Определение порядка ранга матрицы решений итерационной процедуры отбора наиболее информативных полиномов над конечным полем, образованных дихотомическими факторами, при отсутствии контроля их принадлежности одному и тому же суперподпространству или линейному пространству, образованному полиномами специального вида.

Результаты по задаче 4 получены совместно следующими членами коллектива:
Нина Петровна Алексеева (80%): получены основные теоретические результаты.
Эльфия Гарифовна Бурнаева (20%): программное сопровождение.

Transfer of the full copy of the report to third parties for non-commercial use: permitted/not permitted

разрешается

Check of the report for improper borrowing in external sources (plagiarism): permitted/not permitted

разрешается

Acronym	RFBR_a_2020 - 2
Status	Finished
Effective start/end date	22/03/21 → 28/12/21

ID: 75644319