Механизмы чтения и интерпретации текста на родном и неродном языках: междисциплинарное экспериментальное исследование с использованием методов регистрации движения глаз, визуальной аналитики и технологий виртуальной реальности: 2021 г. этап 1

Проект: исполнение гранта/договораисполнение этапа гранта/договора

Сведения о проекте

описание

7.1. Научная проблема, на решение которой направлен проект.Проект направлен на исследование механизмов обработки и понимания письменного текста носителями и не-носителями русского языка — одной из центральных проблем экспериментальной лингвистики, имеющей решающее значение как для теоретических моделей понимания речи, так и для различных прикладных задач. Таким образом, в центре внимания находится фундаментальная научная проблема восприятия вербальной информации, сопряженная с методами исследования процессов восприятия и понимания смысла текста человеком. 
7.2. Актуальность проблемы, научная значимость решения проблемы.Чтение — важнейший языковой навык, занимающий одно из центральных мест в жизни современного человека, поэтому изучение механизмов обработки письменного текста — это одна из центральных проблем экспериментальной лингвистики как части когнитивной науки. Оптимальной для исследования механизмов чтения является методика регистрации движения глаз, позволяющей исследовать процесс чтения на качественно новом уровне. В последние годы проводятся многочисленные исследования чтения на типологически различных языкахов, тем не менее исследования на материале русского языка крайне немногочисленны, хотя русский язык входит в пятерку самых распространенных языков мира и представляет значительный интерес для сопоставительных исследований. Процесс усвоения неродного языка, универсальные и частноязыковые различия между родным и неродным языком — темы, всегда игравшие важнейшую роль для теоретических и прикладных лингвистических исследований. Однако анализ механизмов чтения пока представлен в этой области достаточно скудно, так как для подобных исследований необходимы большие массивы данных, желательно корпусы движений глаз при чтении на материале различных языков. Актуальным является моделирование процессов понимания целостного текста в контексте исследования его восприятия с помощью современных методов и технологий. В связи с этим предпринимаемое междисциплинарное исследование актуально для развития когнитивной науки.Проект внесет вклад в развитие единого теоретического подхода к описанию механизмов чтения на родном и неродном языке. Комплексные исследования особенно востребованы в когнитивной науке, однако не так много лабораторий могут их себе позволить из-за относительно узкой профессиональной характиристики исследователей и методов. Кроме того, междисциплинарная коммуникация ученых, исследующих разные аспекты механизмов чтения и интерпретации текста, по-прежнему очень трудна из-за отсутствия общего языка описания феноменов. Одним из результатов планируемого проекта является создание единого концептуального аппарата, а также экспериментальных исследовательских методик, позволяющих осуществлять сбор, обработку и интерпретацию поведенческих, лингвистических и математических данных в рамках единой экспериментальной модели восприятия и понимания письменного текста.Теоретическая значимость исследования состоит в возможности внести существенный вклад в изучение когнитивных и окуломоторных механизмов восприятия письменной речи и в частности в изучение становления навыка чтения на иностранном языке, а также возможности выявить как универсальные, так и частноязыковые факторы, влияющие на процесс чтения. Практическая значимость проекта обусловлена возможностью использования полученных результатов для совершенствования существующих образовательных и информационных технологий, связанных с необходимостью проверки успешности обработки и понимания письменной информации на родном и неродном языках.
7.3. Конкретная задача в рамках проблемы, на решение которой направлен проект, ее масштаб.Целью проекта является изучение процесса чтения текста (разных типов и разной степени сложности) носителями и не-носителями языка с помощью мультидисциплинарных методов анализа текста.Данная цель предполагает решение следующих конкретных задач:выявить универсальные и специфические свойства чтения и понимания текста на родном и иностранном языках;установить связь между орфографическими и грамматическими особенностями родных языков читающих и индивидуальными стратегиями в языковых навыках читающих;создать корпус движений глаз при чтении связных текстов на русском языке в качестве родного и иностранного и на английском в качестве иностранного, в сопоставительных целях провести исследования чтения на китайском языке в качестве иностранного (сперва на материале отдельных предложений, затем на материале текстов),исследовать корреляции между различными лингвистическими компетенциями и параметрами глазодвигательной активности и качеством понимания прочитанного при чтении связных текстов на родном (русском) и неродном (английском и русском) языках, сопоставить стратегии обработки текста на родном и неродном языках.исследовать механизмы чтения и понимания текстов с разным типом адаптации (лексически адаптированных/ грамматически адаптированных) с целью выявлению оптимального типа адаптации для читающих на неродном языке.проверить, отличается ли процесс чтения в традиционном формате от чтения в среде виртуальной реальности, описать стратегии интерпретации стимульных текстов, соотносимые с графосемантическими текстовыми структурами, представленными с помощью методов и средств научной визуализации,рассмотреть процесс интерпретации текста в системе координат процесса его восприятия с помощью инструментов отслеживания движения глаз и технологий виртуальной реальности.
7.4. Научная новизна поставленной задачи, обоснование достижимости решения поставленной задачи и возможности получения запланированных результатов.Для сопоставительных исследований чтения ценным инструментом являются корпусы движений глаз, позволяющие одновременно оценивать влияние большого набора предикторов на большие массивы данных (Kliegl, 2007), сравнивать разные возрастные группы и разные языки. На данный момент корпусы движений глаз доступны только для ограниченного числа языков, причем зачастую они включают предложения, а не целые тексты. В частности, для русского языка при участии сотрудников лаборатории когнитивных исследований СПбГУ, входящих в состав участников данного проекта, был создан существует глазодвигательный «Русский корпус предложений» (Russian Sentence Corpus) (Laurinavichyute et al. 2018), который включает отдельные предложения. Более того, большинство корпусов движений глаз включают только данные родного языка. Единственным исключением является (Cop et al. 2017) — корпус чтения на английском и нидерландском языках. Однако уровень текста, как целостной единицы, остается малоизученным. Кроме того, несмотря на многие очевидные преимущества методики регистрации движений глаз при изучении процесса чтения, уровень понимания и интерпретации текста лежит за пределами ее возможностей и обычно исследуется с помощью субъективных/поведенческих методов без привлечения современных информационных технологий, аппарата математического анализа и средств компьютерной когнитивной графики. В проекте впервые будет создан корпус движений глаз при чтении на русском (как родном и как иностранном) и английском (в качестве иностранного) языках. Это позволит исследовать как универсальные механизмы чтения, так и те частноязыковые аспекты, которые вызывают наибольшую трудность у изучающих язык.Никогда ранее подробно не исследовалась взаимосвязь лингвистических компетенций, параметров глазодвигательной активности при чтении на родном и неродном языке и качества понимания прочитанного текста. За исключением единственной работы [Kuperman et al., 2018], эта проблема не рассматривалась применительно к взрослым носителям языка и изучающим язык на продвинутом уровне (когда уже можно говорить об относительно беглом чтении). В рамках данного проекта мы сделаем это на материале русского языка как родного, русского, английского и китайского как иностранных языков.В проекте впервые будет использована среда виртуальной реальности для проведения экспериментов по обработке информации (восприятия и понимания), в частности для моделирования процессов и механизмов понимания и интерпретации текста. Впервые с помощью информационной системы “Семограф” (http://semograph.org) и системы визуальной аналитики на платформе ScVi (https://scivi.tools) будут построены многопараметрические математические модели результатов обработки текста читающим.
7.5. Современное состояние исследований по данной проблеме.Чтение — это сложный навык, в который входит целый ряд составляющих, в том числе умение декодировать графический образ слова, навык перевода букв и буквосочетаний в фонетические репрезентации, умение установить связь между графическим и фонетическим образами слова и его значением, грамматические компетенции, позволяющие правильно интерпретировать связи между словами в предложении, общая начитанность, облегчающая понимание структуры текста в целом - при этом вклад каждой из обсуждаемых компетенций в изменение параметров глазодвигательной активности и улучшение качества понимания текста может быть разным в зависимости от языка, на котором написан текст, и от родного языка читающего.Индивидуальные различия в лингвистических компетенциях могут повлиять на параметры глазодвигательной активности испытуемых, поэтому их учет целесообразен в последующих исследованиях чтения с использованием регистрации движений глаз.Чтение включает в себя перцептивную и когнитивную обработку слов: доступ к значениям слов, анализ синтаксической структуры предложений и интеграцию различных значений предложений в целостное понимание текста. Основным методом, используемым для понимания этого сложного процесса, является регистрация движений глаз. Многие исследования показали влияние длины и частотности слова, а также предсказуемости слова, определяемой контекстом предложения, на показатели движения глаз. Эти факторы принято называть “большой тройкой”, на основании исследований на разных языках они считаются основными и универсальными. Другие исследования изучали роль семантической и синтаксической интеграции слов в контексте предложения (см. обзор Rayner, 1998, 2009). Экспериментальный подход позволяет напрямую проверять эти факторы и раскрывает их роль на разных этапах чтения (см. обзор Clifton et al., 2016). Тем не менее, многие вопросы все еще остаются открытыми, например, как эти факторы взаимодействуют (Miellet, Sparrow & Sereno, 2007; Rayner, Ashby, Pollatsek, & Reichle, 2004). В данном проекте мы более подробно рассмотрим один из этих вопросов, связанных с различными типами предсказуемости: глобальной и локальной.Другой открытый вопрос — как результаты, полученные на тщательно контролируемых экспериментальных стимулах, могут быть экстраполированы на все слова в большом корпусе (Kliegl et al., 2004). Чтобы решить эту проблему, Клигель и его коллеги предложили собирать корпусы движений глаз (SCEM), включающие данные по большому количеству предложений от большого количества участников. Корпусы движений глаз позволили изучить, как на время фиксации влияют особенности текущего слова, а также предыдущего и следующего за ним слова (например, Kliegl, Nuthmann, & Engbert, 2006). Использование многомерных моделей для анализа также позволяет одновременно оценивать влияние большого набора предикторов на большие наборы данных (Kliegl, 2007), чтобы показать распределенную обработку нескольких слов, а также сравнивать разные возрастные группы и разные языки. В нашей работе мы предполагаем использовать материал русского (Russian Sentence Corpus (далее RSC), Laurinavichyute et al. 2018) и китайского (Taipei Sentence Corpus (далее TSC) , Tsai et al., 2019) корпусов движения глаз.В последние два десятилетия количество исследований движений глаз при чтении на китайском языке растет. Было показано наличие влияния частотности и сложности символов (т.е. количества элементов) на длительность фиксации (Inhoff, Liu & Tang, 1999; Wang et al., 2009; Wong & Chen 1999; Yan et al., 2006), а также эффект размера соседства (количества квазиомографов) (Bai et al., 2008; Inhoff & Wu, 2005; Rayner et al., 2005; Tsai et al., 2006). На уровне предложения была показана роль контекста в разрешении лексической неоднозначности китайских омографов (Chen & Tsai, 2015).Исследования движений глаз при чтении с акцентом на орфографические, морфологические и лексические особенности русского языка крайне немногочисленны (Laurinavichyute et al., 2018; Алексеева и Слюсарь, 2017; Алексеева и др., 2019, Черниговская и др. 2018). Наиболее релевантное исследование для нашего проекта — статья (Laurinavichyute et al., 2018), представляющая русский корпус движений глаз.В этой работе было показано, что при чтении на русском три основные переменные - длина, частотность, контекстная предсказуемость слова – определяют такие параметры движения глаз, как средняя продолжительность фиксаций и средняя амплитуда саккады, аналогичные закономерности наблюдаются и для ряда других языков. Однако также были выявлены некоторые частноязыковые особенности, например, в русском языке, в отличие от немецкого, вероятность наличия одной фиксации на слове возрастает с увеличением длины слова и его предсказуемости. Поэтому, хотя в целом паттерны движений глаз в алфавитных языках могут выглядеть довольно схожими и претендовать на универсальность, некоторые специфические для языка стратегии чтения также могут сыграть свою роль. Это повышает ценность сопоставительных исследований, к числу которых относится и данный проект. В (Laurinavichyute et al., 2018) также были исследованы некоторые грамматические особенности русского языка. Например, авторы показали, что независимо от частотности, длины и предсказуемости слова глаголы читаются медленнее, чем существительные, а начальные формы (соответствующие словарной форме, то есть именительный падеж единственного числа для существительных и инфинитив для глаголов) требуют меньше времени для обработки, чем все остальные. Мы предполагаем, что именно развитая морфология становится основным препятствием для носителей китайского, изучающих русский язык. Опираясь на данные предыдущих работ и на наше собственное исследование, мы планируем установить, какие аспекты русской грамматики представляют наибольшую сложность для изучающих язык, какие граммемы усваиваются позже и провоцируют большее число ошибок, а затем проверить, будут ли те же самые особенности вызывать большие трудности при чтении.Предыдущие исследования по изучению русского языка как иностранного указывали на наиболее сложные лексические и грамматические аспекты для китайскоязычных студентов. Они включают грамматическую категорию вида для русских глаголов (Акимова, 2012; Смурова, 2015), глаголы движения (Корчик, 2012; Чан, 2014), предложно-падежные сочетания (Казакова, 2018; Корчик, 2013; Яо, 2015), использование местоимений (Люй, 2015) и порядок слов (Чан, 2014). Основываясь на опыте преподавания и анализе ошибок, эти исследования дают общую информацию об основных трудностях для китайскоязычных студентов, изучающих русский язык.Однако для предполагаемого анализа движений глаз нам также понадобятся данные другого типа. Так, при изучении влияния частотности слова на параметры движения глаз требовалось сравнение высокочастотных и низкочастотных слов. Подобные сравнительные данные могут быть получены и для словоизменительной морфологии, если мы сможем показать, что одна грамматическая категория или граммема осваивается позже и вызывает больше ошибок, чем другая.Одним из ключевых факторов, влияющих на движения глаз при чтении, является контекстная предсказуемость слова. В настоящее время имеются убедительные доказательства того, что предсказуемость влияет на время фиксации и степень вероятности фиксации в языках, использующих латинский алфавит. Так, более предсказуемые исходя из контекста слова читаются с более коротким временем фиксации и пропускаются чаще, чем менее предсказуемые слова. Эти эффекты не зависят от длины слова и его частотности (например, Ehrlich & Rayner, 1981; Kliegl et al., 2004, Rayner et al., 2011). Эффекты предсказуемости также были изучены на китайском языке: авторы статьи (Rayner et al., 2005) обнаружили, что китайские слова со средней и высокой степенью предсказуемости имеют более короткое время фиксации, чем слова со слабой предсказуемостью. Эффект предсказуемости был также обнаружен на русском языке (Laurinavichyute et al., 2018).В то же время природа эффектов предсказуемости пока не ясна. Есть два основных подхода. Во-первых, эти эффекты могут возникать при обработке “сверху вниз”, из-за того, что на основе предыдущего широкого контекста прогнозируется, какое слово, вероятно, последует далее. Во-вторых, следующее слово может быть предсказано, используя механизм более низкого уровня, который просто отражает частоту совместной встречаемости разных слов в языке. Вслед за (Fitsimmons & Grieghe, 2013; Calvo & Meseguer, 2002) мы предполагаем, что существует два различных типа предсказуемости: локальный (на уровне предложения) и глобальный (на уровне текста). Мы планируем проверить, как эти два типа предсказуемости влияют на движения глаз у читающих на родном и иностранном языке. Сопоставительные исследования чтения на двух языках в основном сосредоточены на механизме конкуренции между родным и неродным языками. Согласно гипотезе (Perfetti, 2007; Perfetti & Hart, 2002), успешность чтения определяется качеством лексической репрезентации. Доступ к лексической репрезентации высокого качества осуществляется быстрее и надежнее, что улучшает понимание. Гипотеза (Gollan, Slattery, Goldenberg, Van Assche, Duyck, & Rayner, 2011) заключается в том, что, по сравнению с одноязычными читателями, двуязычные неизбежно должны тратить часть ресурсов на другой язык, что приводит к снижению качества лексической репрезентации. В результате эффективность чтения на родном языке у двуязычных читателей может быть ниже, чем у одноязычных. С другой стороны, двуязычные имеют меньший опыт при чтении на иностранном языке по сравнению с родным. Таким образом, лексические репрезентации у изучающих язык слабее, чем у читающих на родном языке.Эта гипотеза была подтверждена исследованиями, использующими методики лексического решения и называния картинок (Duyck, Vanderelst, Desmet, & Hartsuiker, 2008; Gollan et al., 2011). Их результаты показали, что влияние частотности слова было больше для иностранного языка, чем для родного, так как меньший языковой опыт вызывает неэффективность обработки низкочастотных слов на иностранном языке. Некоторые исследования движений глаз при чтении на родном и иностранном языках также подтверждают данную гипотезу. Когда двуязычные участники читали короткие отрывки, эффект частотности слов был ярче выражен именно для иностранного языка и уменьшался с расширением языкового опыта (Cop, Keuleers, Drieghe, & Duyck, 2015; Whitford & Titone, 2012). Показано, что степень близости между параметрами чтения на родном и неродном языке зависит от языкового опыта на неродном языке (Whitford & Titone, 2016, Машанло 2018). В нашем проекте мы будем использовать несколько тестов и анкет для определения уровня владения иностранным языком и языкового опыта, чтобы иметь возможность проверить эти прогнозы.Как уже было отмечено, почти все корпусы движений глаз включают только данные родного языка. Единственным исключением является работа (Cop et al. 2015), в которой использованы данные англо-нидерландских билингвов и одноязычных носителей английского, читавших роман на английском и нидерландском языках. При чтении на иностранном языке требовалось больше времени для обработки предложений, было больше фиксаций и меньше пропусков слов, чем при чтении на родном языке. Когда языковой опыт на неродном языке увеличивался, средняя скорость чтения на этом языке также увеличивалась, а количество регрессий сокращалось. В то же время скорость чтения на родном языке становилась ниже, а количество регрессий возрастало. Тот факт, что пока существует только одно корпусное исследование движения глаз при чтении на двух языках, подчеркивает важность сбора большего количества данных, особенно по другим языковым парам, что и является целью настоящего проекта. В современных экспериментальных исследованиях чтения показано, что параметры глазодвигательной активности меняются не только в зависимости от характеристик текста, но и в зависимости от степени развития навыков самого читателя. Так, [Mancheva et al. 2015] обнаружили влияние уровня развития орфографических навыков у детей на длительность фиксаций при чтении, а [Slattery & Yates, 2018] показали, что с улучшением орфографических навыков читатели пропускают больше слов и делают более длинные саккады. Степень развития орфографической компетенции отражает качество лексических репрезентаций, которые есть у читающего, то есть, насколько тесно связан в его памяти графический образ слова с его звуковым образом и значением, и насколько быстро он может получить доступ этой информации [Perfetti, 2007]. В исследованиях С. Эндрюс было показано, что читатели с развитым навыкомправописания меньше полагались на контекст для успешного доступа к значению слова, и, соответственно, читали быстрее и лучше понимали прочитанное [Andrews, Bond, 2009]. Другой ключевым фактором, определяющим успешность чтения, является читательский опыт (exposure to print). Отмечается взаимосвязь читательского опыта с такими важными для восприятия письменной речи навыками, как скорость распознавания слова (Chateau & Jared, 2000), орфографическая грамотность (Burt & Fury, 2000; Stanovich &West, 1989), беглость речи (Stanovich & Cunningham, 1992), понимание прочитанного и скорость чтения (Martin-Chang& Gould, 2008), а также словарным запасом (Martin-Chang & Gould, 2008; Stanovich, West & Harrison, 1995; West & Stanovich, 1991).Представляет существенный интерес вопрос о том, насколько велика роль каждой из этих компетенций в успешности чтения на русском языке как родном и иностранном и на английском языке как иностранном. Так, в исследовании [Kuperman, Bertram, Erlinghagen et al., 2018] свидетельства о том, что, в зависимости от родного языка, высокий уровень разных языковых навыков в большей или меньшей степени коррелирует с успехом при чтении текстов на английском языке (т. е. с увеличением скорости чтения и с лучшим пониманием прочитанного): так, у носителей финского с большей скоростью чтения коррелировало лучшее знание английской орфографии, тогда как для носителей немецкого подобной закономерности обнаружено не было, но была найдена корреляция между скоростью чтения на английском и размером словарного запаса, а также читательским опытом (у носителей финского эти характеристики со скоростью чтения на английском не коррелировали).Это позволяет предположить, что для носителей русского языка уровень развития одних языковых навыков также будет теснее связан с окуломоторными характеристиками при чтении текстов на неродном языке, чем уровень развития других навыков.В целом, исследования, посвящённые изучению чтения на неродном для испытуемых языке, с использованием регистрации параметров глазодвигательной активности, немногочисленны [Latif, 2019] и проводились в основном на материале небольшого числа германских и романских языков (английский, немецкий, голландский, французский, итальянский). Пока нет исследований того, как носители русского или других славянских языков читают на иностранных языках. В последнее время большое внимание уделяется изучению вопроса о сложности текста и влиянии этого фактора на процесс чтения [Solovyev, Ivanov, Solnyshkina, 2018]. С помощью современных экспериментальных методов показано, что от сложности текста (выраженной посредством таких факторов, как частотность, согласование предложений, абстрактность и неоднозначность слов, встречающихся в тексте и т.д.) зависит характер движений глаз при чтении: продолжительность фиксаций, амплитуда саккад и процент возвратов [Rayner, Reichle 2010].Для исследования процессов понимания текста важным фактором является возможность построения сопоставимых моделей структурирования одного и того же текста (формирование индивидуальных проекций текста), осуществляемых читателями. Существует довольно внушительный пласт литературы, посвященный проблеме моделировании семантической организации текста и процессам его восприятия (см. работы Ван Дейка, Кинча, Москальской и др.). Единицы, выделяемые при описании / структурировании семантического пространства текста, могут различаться не только терминологически, но и онтологически. В качестве основы экспериментального исследования построения моделей понимания текста предлагается рассматривать тему и тематическое пространство текста. С позиции денотативного анализа выявляется следующая иерархия элементов содержательной структуры: тема – подтемы – субтемы. Субтемы, являясь компонентами денотативной структуры, раскрывают содержание подтем, которые полагаются «ключевыми» денотатами, раскрывающими содержание предмета описания – темы текста (Новиков 1983, с. 127-151). В качестве текстовых микротем (подтем, субтем и т.д.) могут выступать, в частности, мотивы, рассредоточенные по всему текстовому пространству и выявляемые только на уровне целого (Гаспаров Б.М. 1994), ассоциативные цепи текста, создающие «многомерное содержательное пространство текстовых перекличек» (Николаева 2000, с. 418), ассоциативно-смысловые поля, материализованные лексически, связанные парадигматически и синтагматически, соотносящиеся с одним концептом текста (Болотнова 2001, с. 130), структурные предметные комплексы (Сахарный 1998, Петрова 2000). На современном этапе развития технологий появилась возможности построения моделей понимания текста с помощью информационных продуктов, фиксирующих временные параметры деятельности (процесса интерпретации) с использованием средств автоматизации построения моделей, в том числе и визуальных. Такие технологии позволяют повторно и на новом уровне начать исследования процессов понимания текста. В настоящее время существует ряд приложений, работающих с автоматизированным тематическим анализом (список см. http://tapor.ca/); для целей обработки экспериментальных данных имеется гораздо меньше средств, в том числе (Tesla - Text Engineering Software Laboratory или ATLAS.ti - систему для проведения т.н. качественных исследований). Приложением, созданным для проведения тематического анализа на основе экспериментальных данных, является Semograph (https://semograph.org), разработанный пермскими коллегами, входящими в состав коллектива данного проекта (см. работы К. И. Белоусова).Визуализация данных и визуальная аналитика в настоящее время являются очень востребованными и активно развивающимися направлениями компьютерной графики. Это связано с постоянным увеличением объемов информации, подлежащей восприятию, интерпретации и переработке людьми (Thomas J.J., Cook K.A. 2005, 190). Визуальная аналитика позволяет выявлять скрытые закономерности в изучаемых объектах и явлениях (особенно при многопараметрическом описании и многочисленных выборках, генерируемых на основе независимых переменных в эксперименте), а также производить верификацию данных (поиск ошибок в модели, визуальное сравнение независимых результатов и т.д.) (Keim D.A., Mansmann F., Stoffel A., Ziegler. H. 2009; Keim D.A., Mansmann F., Thomas J. 2009). Существует большое количество программных пакетов и библиотек визуализации, направленных на решение различных задач (например, TecPlot, Avizo, VizIt, ParaView, KiwiViewer и др.). Однако ряд проблем в этой области всё ещё не имеет эффективных и универсальных решений, связанных в первую очередь с разнородностью источников данных и их форматов. Наиболее интересными в области визуализации представляются решения, основанные на методе онтологического инжиниринга, посредством которого в связную систему типов данных и типов визуализаций можно было бы бесконфликтно встроить новые компоненты (см. https://scivi.tools, программа разработана К.В. Рябининым, входящим в состав участников данного гранта от пермского коллектива).Еще одной возможностью для проведения экспериментов стало использование среды и средств виртуальной реальности. VR как новая область исследования появилась в последние годы в психологии, социологии и др. науках (см. Rothbaum 1990; Biocca & Levy 1995; Blascovich 2002; Fox 2009: 95). На данный момент VR считается экспериментальной средой, технологией процессов (лечение, обучение и др.) или методом исследования, который используется в медицине (Tarr 2002; Rizzo 2005; Riva 2008; Ahn 2015), в экономике (Atlas 2008; Innocenti 2015), в лингвистике (Heyselaar 2015; Dolgunsöz 2018: 280; Peeters 2019) и др. Технологии VR дают возможность предъявления трехмерных сцен, манипуляции виртуальными объектами, широкого обзора зрения и т.п. и являются эффективными для изучения когнитивных процессов (Зинченко 2010: 67; Zinchenko 2015: 61). Д. Питерс указывает, что взаимодействие между различными модальностями (речь, жест, взгляд, выражение лица) является главным преимуществом использования VR-устройств (Peeters 2019: 899). В силу ряда преимуществ, которые дает VR-среда (правдоподобность, управляемость, вовлеченность, интерактивность и др.), начинают появляться платформы для проведения экспериментов (см., например, (Grübel и др. 2017)). Идея таких платформ состоит в быстрой настройке VR-среды под требования экспериментатора. В настоящее время технологии VR усложняются за счет интеграции с технологиями IoT (интернета вещей), а также иными технологиями, развивающимися ранее самостоятельно, в частности с методикой регистрации движений глаз, как, например, в Vive Pro Eye (https://www.vive.com/eu/product/vive-pro-eye/overview/). Это позволяет использовать среду виртуальной реальности для исследования способов обработки информации (восприятия и понимания), в частности для моделирования процессов и механизмов понимания и интерпретации текста. 
7.6. Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта.Для изучения особенностей обработки и усвоения информации при работе с письменным текстом планируется использовать ряд дополняющих друг друга междисциплинарных методик, позволяющих изучать различные аспекты процесса чтения как с помощью традиционных оффлайновых методов, так и в режиме реального времени. У коллектива есть опыт работы со всеми этими методами:- методика регистрации движений глаз, позволяющая отследить ранние и поздние эффекты во время обработки вербальной информации. На основании теории А.Джаста и P.Карпентер мы полагаем, что движения глаз можно соотносить с пониманием текста [Cooper, 1974; Justetal, 1980; Rayneretal, 2001; Underwood, 2004; Rayneretal, 2006; Reingoldetal, 2006 и др];- поведенческие методики, традиционно применяемые в междисциплинарной науке — психолингвистике — для решения лингвистических задач, в частности для оценки эффективности чтения и успешности понимания текста (вопросно-ответная методика, методика семантического дифференциала, методика набора ключевых слов, методика лакунарных текстов, методика чтения с самостоятельной регулировкой скорости).Изучение механизмов понимания и интерпретации текста будет осуществляться с использованием:- шлемов виртуальной реальности с отслеживанием движений глаз Vive Pro Eye; - системы неоптического захвата движения Perception Neuron 32 (позволяет полностью перенести свое "тело" в виртуальную реальность, т.е. синхронизировать движения тела с движением своего визуального образа в VR);- многопользовательской информационной системы «Семограф», реализованной как веб-приложение и предназначенной в том числе для проведения онлайн-экспериментов по тематическому анализу текстов;- системы научной визуализации SciVi.Психолингвистические методы, адаптированные к возможностям сетевой организации экспериментального исследования, в т.ч. метод тематического анализа текста (тематического картирования текста), позволяют выделить несколько стратегий структурирования тематического пространства на основе наблюдаемых параметров: а) количества выделяемых информантом микротем; б) количества слов текста, приписываемых к микротемам; в) распределение слов, приписываемых к микротемам в текстовом пространстве (локальные или сквозные микротемы);г) временные характеристики действий информанта (протяженность временных интервалов, затрачиваемых на выделение микротем и приписывания к ним слов из текста); д) степень пересечения словаря текста и формулировок микротем (воспроизведение текста / переработка/обобщение) и нек. др. Данные параметры становятся основой для построения когнитивных моделей аналитической деятельности с текстом, определения когнитивных стилей (в частности, полезависимости / поленезависимости - например, через степень пересечения словаря текста и формулировок микротем; аналитичности / синтетичности - через количество выделенных микротем). Уровни понимания анализируются через наличие сквозных микротем.Полученные математические модели будут рассматриваться в системе визуальной аналитики на платформе ScVi (https://scivi.tools). Система визуальной аналитики хорошо работает с многопараметрическими моделями, имеющими множество зависимостей (см. примеры https://graph.semograph.org/cgraph/). Исследователю предоставляется возможность строить ad hoc гипотезы и проверять их релевантность и нетривиальность для известной ему предметной области.
Общий план работы на весь срок выполнения проекта:2021Анализ теоретических концепций, объясняющих механизмы чтения как вида когнитивной деятельности. Сопоставительное исследование чтения на русском языке в качестве родного и английском языке в качестве иностранного. Разработка и адаптация русскоязычных и англоязычных тестов для оценки различий в лингвистических компетенциях. Оценка степени индивидуальных различий в лингвистических компетенциях и параметров глазодвигательной активности при чтении текстов на родном и неродном языке. Проведение пилотажных экспериментов, посвященных описанию лингвистических факторов, влияющих на процесс чтения текста на родном и неродном языках: способ предварительного ознакомления с текстом (чтение вслух или про себя), а также уровень владения русским языком в случае Я2. Предварительный анализ семантической структуры текстов (лексем, тем и микротем текстов) с использованием информационной системы "Семограф". Создание и настройка сцены VR-стенда для проведения экспериментов, в том числе с обеспечением непрерывного в режиме реального времени сбора данных и рендеринга в системе SciVi. Оценка необходимого размера выборки с учетом ожидаемой силы эффекта и сбор данных основных исследований. Подготовка не менее 5 публикаций в изданиях, индексируемых в базах «Web of Science» или «Scopus». Представление докладов на ведущих российских и международных конференциях в области когнитивной науки. 2022Корректировка и уточнение экспериментальных дизайнов и процедур с учетом результатов пилотажных исследований, проведенных в 2021 году. Анализ результатов экспериментов, выполненных с помощью методики регистрации движений глаз. Оценка степени индивидуальных различий в лингвистических компетенциях и параметров глазодвигательной активности при чтении текстов на родном и неродном языке. Подготовка и проведение дополнительного исследования на материале китайского языка как иностранного. Проведение основной серии экспериментов, направленных на выявление влияния типа текста (лексически адаптированный/ грамматически адаптированный) на успешность выделения ключевых слов, полноту и точность пересказа, субъективную оценку сложности текста). Проведение экспериментов на платформе ИС "Семограф" со стимульными текстами, используемыми в первом направлении (сопоставительное исследование чтения). Количество информантов, привлекаемых на один стимульный текст — от 30 до 50 в зависимости от сложности и размера текста. Реализация поддержки средств виртуальной реальности в разработанных модулях визуализации. Разработка шаблонов предобработки для эффективного анализа данных, в т.ч. для их сопоставления и поиска в них паттернов. Подготовка не менее 7 публикаций (включая 5 статей в изданиях, индексируемых в базах «WebofScience» или «Scopus»). Представление докладов на ведущих российских и международных конференциях в области когнитивной науки. 2023Анализ данных и подготовка публикаций по результатам проведенных исследований в рамках каждого из направлений проекта. Обработка полученных в экспериментах многопараметрических данных с использованием средств традиционной статистики и методов машинного обучения. Анализ многопараметрических связей с использованием средств визуальной аналитики. Использование средств визуальной аналитики для сопоставления процессов восприятия текста и его интерпретации в среде VR как на экспериментальных данных, полученных от отдельных информантах, так и в обобщающих моделях. Сопоставление данных айтрекинга, полученных в разных форматах чтения (привычном и в VR-среде). Построение обобщенных моделей механизмов чтения на Я1 и Я2 и интерпретации и понимания текста с учетом данных всех проведенных экспериментов. Подготовка не менее 5 публикаций в изданиях, индексируемых в базах «WebofScience» или «Scopus». Представление докладов на ведущих российских и международных конференциях в области когнитивной науки.
7.7. Имеющийся у коллектива исполнителей научный задел по проекту (в данном пункте заполняется текстовое описание задела, а размещение прочей подтверждающей информации описано в п. 4.3.20).Коллектив проекта имеет большой опыт проведения экспериментальных лингвистических исследований, в частности активно применяет в своих работах методику регистрации движения глаз. Результаты исследований были представлены на ведущих конференциях и отражены в многочисленных публикациях (в том числе в журналах, входящих в базы данных Scopus и Web of Science) и в монографии, посвященной применению методики регистрации движения глаз в психолингвистических исследованиях (Черниговская и др., 2018).Все участники имеют опыт работы над научно-исследовательскими проектами в рамках когнитивного подхода. Предлагаемое исследование является продолжением работы, которая велась коллективом исполнителей под руководством Т. В. Черниговской, К.И. Белоусова, Е.В. Ерофеевой, Н.А. Слюсарь в рамках следующих крупных проектов:● Психофизиологические и нейролингвистические аспекты процесса распознавания вербальных и невербальных паттернов (2014-2018; поддержан грантом РНФ 14-18-02135; основные результаты отражены в коллективной монографии «Взгляд кота Шредингера: регистрация движений глаз в психолингвистических исследованиях»);● Динамика функционального состояния человека при реализации синхронного перевода (2016-2018; поддержан грантом РФФИ; в рамках проекта описаны психофизиологические механизмы синхронного перевода как вида сложной когнитивной деятельности и исследовано функциональное состояние человека в ситуации решения сложной когнитивной задачи);● Экспериментальное изучение контекстуальных факторов, влияющих на процесс речевосприятия (2014-2016; поддержан грантом РГНФ 14-04-00586 и направлен на изучение роли различных контекстуальных факторов, влияющих на восприятие устной и письменной речи);● Когнитивные механизмы преодоления информационной многозначности (2013-2015; поддержан грантом СПбГУ 0.38.518.2013; посвящен междисциплинарному изучению когнитивных механизмов распознавания многозначной информации);● Исследование лексического компонента языка с помощью методики регистрации движения глаз (2010-2012; поддержан грантом РГНФ 100400056а; в ходе проекта проанализирована сущность лексической неоднозначности, идиом как единиц ментального лексикона, а также явлений полисемии и омонимии с точки зрения соотнесенности с различными моделями чтения);● Метарепрезентация и формирование внутренней модели сознания «другого» (Theory of Mind) в норме и при шизофрении: психолингвистическое и нейропсихологическое исследование организации коммуникативного взаимодействия (2006-2008, поддержан грантом РФФИ 06-06-80152-а).● В рамках реализации заданий по гранту РГНФ (проект № 12-34-01087, рук. К.И. Белоусов) в 2012-2014 гг. осуществлялось экспериментальное моделирование деятельности лингвиста в процессе осуществления тематического анализа текста в лингвокогнитивном и лингвоперсонологическом аспектах. В проекте апробирована ИС “Семограф” в качестве инструмента сбора экспериментальных данных в режиме онлайн (участники выполняют экспериментальные задания непосредственно в информационной системе, и все действия участников фиксируются с временной привязкой в базе данных). Выявлены стратегии структурирования тематического пространства текста, представленного в виде иерархической системы, компоненты которой имеют характерные для каждого уровня иерархии свойства. Предложена классификация единиц семантического пространства текста, основанная на локализации связей лексем текста.● В рамках государственного задания ПГНИУ на 2017-2019 гг., проект №34.1505.2017/4.6 "Речевое и неречевое поведение пользователя социальной сети: социокогнитивное моделирование с использованием методов машинного обучения и геоинформационных технологий" (рук. К.И. Белоусов) были разработаны модели автоматического психологического профилирования пользователей на основе их речевых параметров, а также методы и средства визуальной аналитики для работы с многопараметрическими данными, включающими социально-демографические, психологические (BFI, самооценка) и языковые параметры (более 100). Также были апробированы технологии IoT (интернета вещей) и VR как средства, повышающие эргономичность систем визуализации, поиска/фильтрации данных. Разработанные методы и средства будут использоваться в предлагаемом проекте.● В рамках гранта РГНФ (проект № 15-04-00320, рук. Е.В. Ерофеева) разработаны методы исследования различных фрагментов ментального лексикона, в частности семантический и статистический анализ актуального лексикона и описание структуры отдельных категориальных классов и фреймов, показавшие наличие обусловленности изученных фреймов социальными параметрами говорящих, такими как гендер, специальность, профессиональный статус. Научный коллектив сотрудничает с Образовательным центром “Сириус” в рамках проектных смен: под руководством представителей коллектива (Е.И. Риехакайнен, Т.Е. Петровой, Н.А. Слюсарь, К.И. Белоусова, Е.В. Ерофеевой, Д.С. Павловой, В.И. Зубова) регулярно реализуются психолингвистические проекты по когнитивным исследованиям и лингвистике, направленные на изучение механизмов восприятия и обработки информации. Нами показано, что тип предъявляемого паттерна влияет на характеристики движений глаз при чтении. У членов коллектива имеется многолетний опыт руководства кандидатскими, магистерскими и бакалаврскими работами, тематика которых связана с изучением механизмов восприятия устной и письменной речи, а следовательно, имеет самое непосредственное отношение к данному проекту.7.8. Детальный план работы на первый год выполнения проекта.В 2021 году будет проведен анализ теоретических концепций, объясняющих механизмы чтения на родном и неродном языках и понимания текста как целостной структуры.Будет проведено сопоставительное исследование чтения на русском языке в качестве родного и английском языке в качестве иностранного. Участниками исследования станут взрослые носители русского языка, владеющие английским языком на уровне, достаточном для свободного и быстрого чтения текстов разных жанров (B2 и выше по шкале CEFR). Участникам будет предложено читать тексты на русском и английском языках и отвечать на вопросы по содержанию прочитанного; при чтении будет производиться запись движения глаз. В ходе исследования будет использована батарея русскоязычных и англоязычных тестов для оценки различий в лингвистических компетенциях. Второе направление исследований будет связано с изучением специфики восприятия и понимания разных типов текста. Будет разработан дизайн и проведена серия пилотных экспериментов, посвященных описанию лингвистических факторов, влияющих на процесс чтения текста на родном и неродном языках. Планируется оценить, влияет ли тип текста (лексически адаптированный / грамматически адаптированный) на успешность выделения ключевых слов, полноту и точность пересказа, субъективную оценку сложности текста; оказывает ли влияние на эти параметры способ предварительного ознакомления с текстом (чтение вслух или про себя), а также уровень владения русским языком в случае L2.Исследование понимания разных типов текста будет осуществляться двумя способами: а) с использованием информационной системы "Семограф", в которой для каждого текста создается проект. Текст в нем предъявляется группе участников, каждый из них осуществляет тематический анализ (выделение микротем, приписывание слов текста к выделенным микротемам). При этом, работая в одном проекте, участники не видят действий и результатов действий других информантов. В то же время экспериментатор на выходе получает все множество реакций, совершенное группой участников, что позволяет сразу генерировать семантические карты текста (в том числе в разрезе социальных и иных параметров) с их последующей визуализацией.б) с использованием среды виртуальной реальности в виде стенда для проведения экспериментов, реализованной на движке Unreal Engine, а также оборудования, состоящего из шлема виртуальной реальности с функцией айтрекинга Vive Pro Eye и костюма Perception Neuron 32, позволяющего синхронизировать движения тела с движением своего визуального образа в VR. Информант на VR-сцене выполняет задание, состоящее из чтения текста на виртуальной доске и создания микротем с помощью переноса и группировки слов текста в отдельно выделенные "пространства". Название таким микротемам информант дает устно. При проведении эксперимента в VR-среде записывается движение глаз, а также поведение участников, фиксируемое внутренними и внешними IP-камерами. Таким образом мы получаем наложение двух процессов: восприятия текста (с помощью анализа движений глаз) и его понимание/интерпретацию (с помощью инструментов классификации и анализа движений глаз). В 2021 году будет настроена сцена VR-стенда для проведения экспериментов, в том числе с обеспечением непрерывного в режиме реального времени сбора данных и рендеринга в системе SciVi. Настройка сцены VR-стенда подразумевает создание на его основе инструмента виртуальной доски с выводом на нее стимульного материала и системы "корзин" для классификации. На основе созданной сцены будут проводится пилотные (тестирующие) эксперименты. В онтологии SciVi будет созданы отдельные компоненты-прототипы, работающие с низкоуровневым типом данных, поставляемых айтрекингом, а также 32-многоканальным VR-костюмом с собственной системой отслеживания движений глаз. 7.9. Ожидаемые научные и (или) научно-технические результаты (без перечисления указанных в п.п. 4.3.11, 4.3.13, 4.3.14) и их научная значимость (например, оценка соответствия запланированных результатов мировому уровню исследований, возможность практического использования запланированных результатов).В ходе реализации проекта будут получены следующие результаты.1. База эмпирических данных, включающая в себя:- базы стимульного материала, описываемого системой параметров (язык, тип текста, его размер и др., для отдельных слов: длина, частотность, предсказуемость, грамматические характеристики и др.);- базы информантов, участвующих в эксперименте (пол, возраст, уровень образования, Я1 и Я2, а также данные тестов, направленных на оценку различных компетенций: общей начитанности, орфографической зоркости, навыков анализа синтаксически сложных предложений и др.);- данные исследований с анализом движений глаз с анализируемыми стимульным материалом (в том числе в зависимости от уровня владения русским языком);- данные экспериментов на VR-стенде, направленные на восприятие и интерпретацию стимульных текстов;- данные тематического анализа, полученные в ИС "Семограф" (несколько проектов, каждый из которых представляет анализ информантами одного стимульного текста). Некоторые проекты будут размещены как открытые датасеты на платформе ИС "Семограф" (http://store.preview.semograph.com/store или https://semograph.com/store). 2. Будут получены результаты, связанные с исследованием роли различных факторов при чтении на Я1 и Я2:- будут выявлены и проанализированы трудности, возникающие при чтении текста на Я1 и Я2, типологически несхожих друг с другом;- будет проанализирована роль различных навыков и компетенций читающего (в частности, общей начитанности, орфографической зоркости, навыков синтаксической обработки и фонологического анализа) при чтении на родном и неродном языке;- будет проанализирована роль различных свойств текста (его тип, размер, уровень сложности и др.) и входящих в него отдельных слов (их длина, частотность, предсказуемость и др.) при чтении на родном и неродном языке;- будут выявлены различия, связанные с чтением вслух и про себя;- будут выявлены оптимальные методики адаптации текста для облегчения его восприятия (в частности, адаптации на уровне лексики и на уровне грамматики).3. В результате психолингвистического эксперимента, проведенного в ИС "Семограф", будут получены результаты тематического анализа для стимульных текстов (используемых для изучения механизмов чтения): выявлены стратегии интерпретации; графосемантические структуры текстов для каждой стратегии интерпретации. Полученные результаты будут использоваться в качестве дополнительных объяснительных факторов изучения механизмов чтения.4. Будут получены результаты, вносящие вклад в решение следующих проблем взаимосвязи восприятия и понимания текста:- что служит триггером для запуска интерпретации; как связано это с семантикой слов, их расположением и временем, затраченным на предварительное знакомство с текстом;- как соотносятся структуры восприятия со структурами интерпретации (исследуется с опорой на средства визуальной аналитики);- чем отличается динамика процесса интерпретации, приводящая к "слабой" концепции текста (в частности, представление семантической структуры несколькими локализованными микротемами при отсутствии сквозных микротем) от динамики процесса интерпретации с "сильной" концепцией текста (передается как локализованными, так и сквозными микротемами);- отличается ли по времени и структуре процесс восприятия (анализ движений глаз), связанный с поиском и обработкой локализованных и сквозных микротем;- отличается ли процесс чтения в традиционном айтрекинге от айтрекинга в среде виртуальной реальности.5. Созданные методы и инструменты визуальной аналитики для используемых в проекте типов данных (многопараметрические данные, многоканальные синхронизированные данные).По результатам исследований планируется опубликовать 15 статей в изданиях, индексируемых в базах данных «Сеть науки» (Web of Science Core Collection) или «Скопус» (Scopus), в том числе 6 работ в изданиях Q1 или Q2 (по рейтингу sjr - https://www.scimagojr.com). Проект вносит вклад в развитие единого теоретического подхода к описанию механизмов чтения на родном и неродном языке. Комплексные исследования особенно востребованы в когнитивной науке, однако не так много лабораторий могут их себе позволить из-за относительно узкой профессиональной характиристики исследователей и методов. Кроме того, междисциплинарная коммуникация ученых, исследующих разные аспекты механизмов чтения и интерпретации текста, по-прежнему очень трудна из-за отсутствия общего языка описания феноменов. Одним из результатов планируемого проекта является создание единого концептуального аппарата, а также экспериментальных исследовательских методик, позволяющих осуществлять сбор, обработку и интерпретацию поведенческих, лингвистических и математических данных в рамках единой экспериментальной модели восприятия и понимания письменного текста.Практическая значимость проекта обусловлена возможностью использования полученных результатов для совершенствования существующих образовательных и информационных технологий, связанных с необходимостью проверки успешности обработки и понимания письменной информации на родном и неродном языках.7.10. Планируемый объем дополнительно привлеченных средств из внешних по отношению к СПбГУ источников за весь период выполнения проекта.нет
Короткий заголовокМеждисциплинарные исследования в области гуманитаристики
АкронимM1_2021 - 1
СтатусАктивный
Действительная дата начала/окончания23/03/2131/12/21

Ключевые слова

  • восприятие текста
  • читательские навыки
  • универсальность
  • кросс-лингвистическое исследование
  • анализ движений глаз при чтении,