Имплицитные аспекты использования математических моделей в психологии: 2020 г. этап 2

Проект: исполнение гранта/договораисполнение этапа гранта/договора

Сведения о проекте

описание

Само возникновение психологии как самостоятельной науки связано с включением в ее методологию математического моделирования и статистических расчетов. Однако, начиная с середины XIX в. и по сегодняшний день применение количественных методов для исследования психических явлений вызывает бурные дискуссии. На данный момент психология находится в стадии очередного пересмотра методологических позиций. (грант "Количественные исследования в психологии: ретроспективный анализ", РФФИ 15-06-99491) Под сомнение ставится эффективность традиционной практики статистической проверки гипотез, изменяется роль математического моделирования психических явлений и т.д. При этом остается открытым вопрос о том, какую роль в производстве психологического знания играют количественные методы? Какими знаниями в области статистики и математического моделирования должен обладать современный психолог, чтобы быть способным проводить научные исследования мирового уровня?

описание для неспециалистов

Исследование направлено на выявление основных закономерностей и тенденций развития математических и статистических методов в практике психологических исследований, опубликованных в основных международных журналах Американской психологической ассоциации (АПА), и путей применения полученных закономерностей для оптимизации развития отечественной психологии. Эти данные накоплены в полнотекстовых базах AПA и отражают развитие психологии более чем за последние 100 лет. Для изучения данных закономерностей будут применяться методы сбора информации из полнотекстовой базы данных PsycArticles в сети интернет (web scraping) и математическое моделирование, включающее в себя моделирование структурными уравнениями (SEM), анализ временных рядов и нейросетевые технологии. Будет проведена валидизация полученных алгоритмами веб-скрапинга данных на основе экспертной оценки части текстов. В результате будет построена модель, позволяющая вычислять параметры успешности того или иного психологического исследования по параметрам его методологии и используемым математическим методам. Выявленные закономерности составят основу для прогнозирования путей развития математико-статистических методов в психологии и разработки новых учебно-образовательных программ, использующих современные математико-статистические методы в психологии.

основные результаты по проекту в целом

Методика выявления использованных в психологических статьях математических методов с помощью поисковых запросов позволила нам обнаружить и зафиксировать в общей сложности 126423 случая упоминания методов в 34016 статьях из 8 психологических журналов. В этих статьях, В этих статьях, опубликованных в 1906–2019 годах, упоминается 34 наиболее часто встречаемых в психологических статьях метода анализа данных. Общее количество проанализированных годовых комплектов 8 журналов 736 подшивок, отсутствующие 5 из них составляют всего 0.68%. Для проверки генеалогии журналов использовался электронный каталог Библиотеки Конгресса США. В случаях дублирования статей под разными названиями одного журнала записи объединялись.

База PsycARTICLES в настоящее время объединяет в себе базу текущих изданий ассоциации, реферативную базу PsycINFO с 1967 г. и исторический архив PsycINFO за 1887–1966 гг. Аннотации и полные тексты базы PsycARTICLES за 1906-2019 гг. содержит необходимую для решения наших задач информацию о статистике.
В целом специфика базы позволяет сделать предположение, что при автоматическом анализе использования математических методов в журнальных статьях характер ошибок в данных до 1985 года и после может отличаться. Исходя из этого, все полученные автоматическим способом данные были разделены на два массива: 1906-1984 гг. и 1985-2019 гг.

Информация о цитированиях была взята из базы Scopus. Это было вызвано более удобным доступом к файлам данных, содержащих в себе количество цитирований для всех статей в интересующих нас журналах с 1970 по 2019 годы.

Исходной информацией для агрегирования данных стали RIS файлы (RIS – международный формат записи библиографической информации о статье) и csv файлы базы Scopus.

Валидность информации о характеристиках статей проверялась с помощью вычитывания выборочных статей (по 5 случайно выбранных статей за каждые 10 лет из каждого журнала, входящих в базу). Полученные путем ручной проверки результаты сравнивались с программно полученными параметрами. В целом количество ошибок в данных за период с 1906 по 1984 гг. меньше, чем с 1985 по 2019 гг. Было выявлено два типа ошибок: 1) ошибка отсутствия, когда в данных информации нет, хотя по факту метод использовался, 2) ошибка наличия, когда в данных информация есть, хотя по факту метод не использовался. Наибольшее количество ошибок допущено по отношению к часто встречающимся методам. Также можно сказать, что общее количество зафиксированных случаев не зависит от характера допущенных ошибок или доступа к поиску по полным текстам статей, т.к. ошибки наличия характерны не для периода значительного возрастания объема информации (с 1985 г.), как можно было бы ожидать.

Предварительный анализ базы показал, что такие показатели, как общее количество статей в журналах одного года, среднее число математических методов в статьях одного года, общее и среднее количество цитирований статей одного года экспоненциально возрастают с течением времени.
Анализ популярности математических методов мы провели с помощью графов. До 1985 г. самые популярные математические методы: проценты, корреляционный анализ и факторный анализ. В период 1985-2019 гг. наиболее часто использовались дисперсионный анализ, корреляционный анализ и проценты.
С помощью моделирования структурными уравнениями удалось выявить связь между тематикой исследований и предпочтениями в математических методах.
Полученные закономерности соответствуют теоретическим предположениям и нашим ожиданиям.

основные результаты по этапу (подробно)

1. Улучшение качества данных с помощью нейросетевых алгоритмов
Горбунов И.А. использовал нейронные сети для улучшения качества данных. В поисковых запросах к базе были введены ключевые слова, относящиеся к 34 математическим методам.
После частичной проверки полученных данных (392 статьи из выборки были проверены экспертами) оказалось, что поисковый алгоритм PsycARTICLES выдает ошибки по различным методам: до 29% ошибочных отнесений. При этом существуют отдельные периоды времени, в которых наблюдаются систематические ошибки алгоритма поиска, которые отмечаются в других работах.
Исходя из этого, мы решили провести коррекцию, полученных поисковым алгоритмом данных для повышения их точности. Входными данными для корректирующего алгоритма были частоты используемых слов в названии и абстракте статьи, а также исходное решение поискового алгоритма базы об использовании этого метода.
Алгоритм разрабатывался на основе моделей нейронных сетей реализованных в пакете Deep learning в приложении Matlab v.R2019. Для обучения правильному распознаванию метода в статье мы использовали трехслойный перцептрон (функция patternnet) с функцией ошибки вычисляемой как кроссэнтропия, и алгоритмом обратного распространения ошибки с коррекцией методом масштабированного сопряженного градиента (Алгоритм Левенберга-Макквардта). Для каждого метода подбиралась наилучшая нейросеть. Так как на качество обучения влияет как размер скрытого слоя, так и начальная конфигурация весов, то при обучении варьировался размер скрытого слоя от 2 до 30 нейронов, для каждого размера выбирали наилучшую из 12 сетей, по проценту ошибок распознавания. Для исключения эффекта переобучения использовано случайное разделение выборок на обучающую – 65%, тестовую – 15% и контрольную 20%.
Подбор входного набора данных. При ограничении перечня слов в абстракте до частоты встречаемости >500 раз во всей выборке, словарь слов в абстрактах достигал 1015 слов, не считая слов в названии статьи. В результате весь набор входных параметров для обучения составлял 2044. Включение всех входных параметров во входной слой было невозможно, вследствие эффектов переобучения. Поэтому необходимо было произвести индивидуальный подбор входных данных для каждого метода. Мы использовали алгоритм.
Длительность работы алгоритма на ПК с процессором Intel Xeon E3-1220 3.0Ггц порядка 32 часов. В результате обучения прирост точности диагностики каждого метода, в среднем улучшился в 2.96 раз. Удалось улучшить точность выявления использованного математического метода во всех случаях. Полученные нейросети провели диагностику на оставшихся 33627 статьях, что позволило эффективнее продолжить анализ динамики использования математических методов.
Далее была проведена коррекция динамики использования методов в статьях журнала по полугодиям. Для анализа динамики статистической практики были выведены графики зависимости частоты использования определенного метода от времени. В процессе анализа графиков было выявлено, что проблема скачка 1985 года, связанная с поиском в полных текстах, при коррекции нейронными сетями полностью не удалена. Данный скачек наблюдается для всех методов в разной степени.
Для дальнейшей коррекции данного скачка была проведена следующая процедура. Вычислялись средние частоты использования данного метода за 4 полугодия до (1983-1984) – F1, и после (1985-1986) – F2.
Далее был вычислен коэффициент корректировки K=F2/F1, отражающий среднюю степень прироста выявления использования метода при включении поиска по полному тексту статьи.
Далее все частоты использования данного метода за полугодие до 1985 года умножались на вычисленный коэффициент. При визуальном анализе графиков оказалось, что динамика использования методов стала более гладкой и поддающейся интерпретации.
Кроме рядов использования каждого метода были получены временные ряды двух основных факторов, включенных в модель SEM. Они также подвергались дальнейшему анализу выявления периодических колебаний.
Проведение эксплораторного факторного анализа (ЭФА) и вычисление значений полученных факторов и моделирование структурными уравнениями (SEM).
Морозова С.В. провела эксплораторный и, далее, конфирматорный факторный анализ. Продолжая исследование проблемы использования количественных методов в психологии, в этом исследовании мы сосредоточились на проверке гипотезы о существовании двух методологий психологии. Об этом феномене в психологии говорил еще Л. Кронбах в 1957 г. в президентском обращении к членам АПА. Выборку составили 24657 статей из 8 журналов (American Psychologist, Journal of Abnormal Psychology, Journal of Applied Psychology, Journal of Comparative Psychology, Journal of Educational Psychology, Journal of Experimental Psychology: General, Journal of Personality and Social Psychology, Journal of Consulting and Clinical Psychology), издающихся АПА. Анализировалось использование следующих методов: ANOVA, t Student’s test, correlational analysis, factor analysis, reliability analysis, regression analysis, SEM. Методы были объединены в две латентные переменные. Процедура исследования включала несколько этапов: 1. подготовка данных к анализу, в том числе с использованием нейронных сетей, 2. расчет общей факторной модели математических методов для всех журналов (ЭФА); 3. расчёт основной и двух альтернативных структурных моделей (SEM). Оценка полноты имеющихся данных по БД Scopus показала, что до 1985 г. удалось выявить 38,5% статей, начиная с 1985 г. уже лучше – 66,5% (в целом 24657 статей из 57491). Результат можно считать хорошим, т.к. полного совпадения быть изначально не могло, ведь далеко не во всех статьях использовались какие-либо количественные методы. Подробнее о методике сбора данных смотрите (Горбунов И.А., 2019). Модели SEM включали следующие переменные: цитирования (общая сумма цитирований по БД Scopus), методология (статьи из журналов смешенной методологии – 0, или из Journal of Experimental Psychology – 1), информация о годе выхода статьи (до 1957, 1958-1985, после 1985). Альтернативные модели отличалась направлением связей между факторами и методологией, или тем, что переменная методология была исключена. Полученная основная структурная модель имеет характеристики: X^2=17.079, df=22, p=0.759, X^2/df=0.776, CFI=1.000, GFI=1.000, RMSEA<0.001, PCOLOSE = 1.000. В целом количество случаев использования методов выборочного сравнения положительно зависит от количества случаев использования корреляционных методов (β = 0.69). Также было обнаружено влияние года на конкретные методы. В целом модель подтверждает идею существования двух методологий в психологии.
Значения полученных факторов были вычислены с помощью регрессионных уравнений и сохранены в отдельные переменные. Далее, мы проверили гипотезу о различии журналов по частоте использования методов анализа групповых различий и корреляционных методов. Для этого предварительно были рассчитаны годовые средние для обоих факторов. Также в анализе использовались две номинальные переменные: journals ("AP", "JAbP", "JApP", "JCompP", "JCCP", "JEdP", "JExP", "JPSP") и years ("befor 1958", "1958-1984", "1958 and later"). Для анализа групповых различий мы использовали Н критерий Кроскалла-Уоллеса, для апостериорных попарных сравнений тест Вилкоксона с поправкой fdr (пакет stats в R).
В целом журналы отличаются по обоим факторам. Апостериорные попарные сравнения показывают статистически значимые различия между журналами. Также наблюдаются различия факторов по годам. С течением времени среднегодовые значения факторов увеличиваются.
Для уточнения результатов мы проанализировали различия по журналам отдельно в каждого из периодов.
Таким образом можно говорить, что до 1985 года низкие сходные среднегодовые показатели по F1 имеют журналы American Psychologist и Journal of Experimental Psychology: General. Начиная с 1985 года средними сходными среднегодовыми значениями по F2 обладают Journal of Consulting and Clinical Psychology и Journal of Applied Psychology.
3. Анализ временных рядов. Поиск гармоник для вычисленных факторных значений. Проведение множественного регрессионного анализа (МРА). Описание вычисленных факторных значений через полученные в ходе анализа временных рядов гармоник.
Горбунов И.А. провел анализ гармонических колебаний динамики использования математических методов в психологии. На этом этапе был применен анализ Фурье, с разложением временных рядов в частотную область, и выявлением доминирующих периодов. Оказалось, что ряд, восстановленный с помощью 3 пар (синусоида и косинусоида) имеющих максимальную среднюю амплитуду вполне восстанавливает основную динамику использования метода от 18 до 77% дисперсии. Также была разложена на гармоники динамика изменений F1 и F2, полученных в модели SEM. Далее для них были построены регрессионные модели (для F1 R^2 = 0.535, для F2 R^2 = 0.857).
Важно, что В процессе анализа временных рядов, отражающих динамику практики использования основных математико-статистических методов, по виду некоторых кривых, мы предположили, что динамика использования методов, хорошо описывается скачками изменения частоты использования, с последующими затухающими колебаниями. В дальнейшем планируется проверка адекватности этой модели.

основные результаты по этапу (кратко)

Для улучшения качества данных были использованы нейросетевые алгоритмы. В результате обучения прирост точности диагностики каждого метода, в среднем улучшился в 2.96 раз. Удалось улучшить точность выявления использованного математического метода во всех случаях. Полученные нейросети провели диагностику на оставшихся 33627 статьях, что позволило эффективнее продолжить анализ динамики использования математических методов.
Была проведена коррекция динамики использования методов в статьях журнала по полугодиям. Для анализа динамики статистической практики были выведены графики зависимости частоты использования определенного метода от времени. В процессе анализа графиков было выявлено, что проблема скачка 1985 года, связанная с поиском в полных текстах, при коррекции нейронными сетями полностью не удалена. Данный скачек наблюдается для всех методов в разной степени.
Была рассчитана модель SEM. В целом она подтверждает идею существования двух методологий в психологии, т.к. были получены два фактора: F1(методы выборочного сравнения) и F2(корреляционные методы). Количество случаев использования методов выборочного сравнения положительно зависит от количества случаев использования корреляционных методов.
Мы проверили гипотезу о различии журналов по частоте использования методов анализа групповых различий и корреляционных методов. Для этого предварительно были рассчитаны годовые средние для обоих факторов. В целом журналы отличаются по обоим факторам. Апостериорные попарные сравнения показывают статистически значимые различия между журналами. Также с течением времени среднегодовые значения факторов увеличиваются.
Проанализированы гармонические колебания динамики использования математических методов в психологии. Был применен анализ Фурье, с разложением временных рядов в частотную область, и выявлением доминирующих периодов. Ряд, восстановленный с помощью 3 пар (синусоида и косинусоида) имеющих максимальную среднюю амплитуду вполне восстанавливает основную динамику использования конкретного метода от 18 до 77% дисперсии. Также была разложена на гармоники динамика изменений F1 и F2, полученных в модели SEM. Для них также были построены регрессионные модели.

описание вклада в работу каждого из участников, допустима оценка в процентах (учётная форма ЦИТиС)

Морозова С.В. - 50%
Горбунов И.А. - 50%

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

не разрешается
Короткий заголовокИмплицитные аспекты
АкронимRFBR_a_2019 - 2
СтатусЗавершено
Действительная дата начала/окончания6/04/2026/12/20

Ключевые слова

  • математические методы
  • методология психологии
  • PsycARTICLES
  • Американская психологическая ассоциация