Проект направлен на решение фундаментальной проблемы исследования современного русского языка повседневного общения. Устойчивые неоднословные единицы, такие как коллокации — сочетания слова с другими лексическими элементами, а также коллигации — сочетания слов с определёнными грамматическими маркерами или сочетания грамматических показателей двух или более слов - имеют сложную природу и выполняют разнообразные функции (например, могут использоваться для придания речи образности).
Эмпирические исследования устной речи показывают, что неоднословные единицы (коллокации, в том числе идиомы, коллигации, коллостракции, неоднословные именованные сущности и др.) составляют неотъемлемую часть повседневного устного дискурса, но до сих пор не получили систематического описания на материале русского устного дискурса.
Целью проекта является масштабное описание системы, особенностей структуры и функционирования устойчивых неоднословных единиц на материале представительного речевого корпуса повседневной русской речи “Один речевой день”. В ходе реализации проекта будут решены следующие задачи: 1) разработаны типология и теоретическое описание устойчивых неоднословных единиц; 2) создана база данных этих единиц и получены количественные характеристики их употребления на реальном речевом материале; 3) подготовлены материалы Словаря устойчивых неоднословных единиц повседневной русской речи.Актуальность проекта связана с решением прикладных задач в области автоматической обработки текстов и речевых технологий (синтеза и распознавания речи). Результаты проекта могут найти применение также в преподавании русского языка как иностранного, в практике перевода, при решении прикладных лингвистических задач и лингвистической экспертизы.
Источником материала для настоящего исследования станет представительный корпус русского повседневного общения «Один речевой день» (ОРД), являющийся наиболее обширным на сегодняшний день ресурсом речевой коммуникации на русском языке. Записи, составившие этот корпус, выполнены по методике непрерывного многочасового мониторинга устной речи. Статистические характеристики корпуса на сегодняшний день следующие: 1450 часов звучания, полученных от 128 информантов и более 1000 их коммуникантов, представляющих разные социальные группы (социолекты) современного российского мегаполиса, каким является Санкт-Петербург, 2800 макроэпизодов речевой коммуникации, более 1 млн. словоупотреблений в текстовых расшифровках, 300 тыс. словоупотреблений в аннотированном подкорпусе.
Исследование будет выполняться в рамках corpus-driven подхода, т.е. подхода, предполагающего нахождение материала и выдвижение post hoc гипотез исходя из анализа полученных примеров. Предполагается получить языковые единицы, которые обладают довольно высокой частотностью и могут претендовать на словарное описание.
В пределах corpus-driven подхода будут использоваться два основных метода выделения и типологизации изучаемых устойчивых неоднословных единиц. В рамках первого метода с применением статистического аппарата (в том числе мер ассоциации) будут анализироваться модели (паттерны) совместной встречаемости слов и граммем. В рамках второго будет использоваться так называемые ‘hand and eye’ technique (или техника “collocation-via-concordance”), то есть способ выделения устойчивых сочетаний с привлечением информации о частотности без использования статистических метрик. Второй подход предполагает просмотр лингвистом-экспертом строк конкорданса и выявление наблюдаемых паттернов совместной встречаемости.
Работа над созданием звукового корпуса ОРД была начата в 2007 г. при поддержке РГНФ (проект №07-04-94515е/Я). Звуковой корпус русского языка «Один речевой день» (ОРД) представляет уникальный материал для исследования русской спонтанной речи, записанной в естественных условиях. Так, на его материале выполнены или разрабатываются в настоящее время четыре таких проекта:
1) материалы к словарю русской повседневной речи,
2) материалы к словарю контекстных экспрессем,
3) словарь редуцированных форм современной русской речи (опубликован в 2019 г.);
4) словарь прагматических маркеров русской повседневной речи (опубликован в 2021 г.).
Научные публикации
1. Bogdanova-Beglarian, N., Blinova, O., Martynenko, G., Sherstinova. T., Zaides, K. Pragmatic Markers in Russian Spoken Speech: an Experience of Systematization and Annotation for the Improvement of NLP Tasks // Proceedings of the FRUCT’23. Bologna, Italy, 13-16 November 2018 / S. Balandin, T. Salmon Cinotti, F. Viola, T. Tyutina (eds.). FRUCT Oy, Finland, 2018. Pp.69-77.
2. Bogdanova-Beglarian, N.V. Phrase Breaks in Everyday Conversations From Sociolinguistic Perspective // Language, Music and Computing. Second International Workshop, LMAC 2017. St. Petersburg, Russia, April 17–19, 2017. Revised Selected Papers. Vol. 943. Communications in Computer and Information Science series / P. Eismont, O. Mitrenina, A. Pereltsdvaig (eds.). Springer Nature Switzerland AG 2019. Pp. 122-130.
3. Bogdanova-Beglarian, N., Sherstinova. T., Blinova, O., Martynenko, G. Pragmatic Markers Distribution in Russian Everyday Speech: Frequency Lists and Other Statistics for Discourse Modeling // SPECOM 2019. Lecture Notes in Artificial Intelligence, LNAI, vol. 11658. Springer, Switzerland, 2019. Pp. 433-443.
4. Bogdanova-Beglarian, N.V., Blinova, O.V., Sherstinova, T.Ju., Troshchenkova, E.V., Gorbunova,D.A., Zaides, K.D. Pragmatic Markers of Russian Everyday Speech: the Revised Typology and Corpus-Based Study // Proceedings of the 25th Conference of Open Innovations Association FRUCT / S. Balandin, V. Niemi, T. Tuytina (eds.). Helsinki, Finland, 2019. Pp. 57-63.
5. Bogdanova-Beglarian, N.V., Blinova, O.V., Sherstinova, T.Yu. Interdisciplinary Approach to the Study of Pragmatic Markers in Everyday Spoken Discourse // Journées scientifiques «Linguistique informatique, formelle de terrain» / Scientific Meeting of the «Computational, Formal and Field Linguistics» Research Group. 28-29 nov. 2019. Orléans, France, 2019. Pp. 52-55.
6. Bogdanova-Beglarian, N.V., Blinova O.V., Sherstinova T.Yu., Gorbunova D.A., Zaides K.D., PopovaT.I. Pragmatic Markers in Dialogue and Monologue: Difficulties of Identification and Typical Formation Models // SPECOM 2020. Lecture Notes in Artificial Intelligence, LNAI, vol.12335. Springer, Switzerland, 2020. Pp. 68-78.
7. Bogdanova-Beglarian, N., Baeva E., Blinova O., Sherstinova T., Gorbunova D., Popova T. Sociolinguistic Variability of Russian Everyday Speech: A Corpus-Based Study // Proceedings of the 27th IEEE Conference of the Open Innovations Association FRUCT. FRUCT’27. The University of Trento (Italy), 7-9 September 2020. Trento, Italy, FRUCT Oy, Finland, Vol. 2 (ACM volume) / S.Balandin, L. Turchet, T. Tyutina. (eds.). Pp. 288-293.
8. Bogdanova-Beglarian N.V. On the Idiomatic Potential of Russian Colloquial Speech // St. Petersburg University Herald. Language and Literature. No. 17 (4), 2020, pp. 582–595.
9. Bogdanova-Beglarian N.V., Blinova O.V., Troshchenkova E.V., Sherstinova T.Yu., Gorbunova D.A., Zaides K.D., Popova T.I., Sulimova T.S. Pragmatic Markers of Russian Everyday Speech: Quantitative Data // Computational Linguistics and Intellectual Technologies. Issue 20 (27). Based on the Materials of the Annual International Conference "Dialogue" (2021) / Ch. ed. V.P. Selegay. Moscow: RGGU, 2021, pp. 119-126.
10. Bogdanova-Beglarian, N., Sherstinova T., Blinova O., Sulimova T. Pragmatic Markers of Russian Everyday Speech: Invariants in Dialogue and Monologue // Рroceedings of 23rd International Conference SPECOM 2021 / A. Karpov, R. Potapova (eds.). Springer LNCS, vol. 12997. С. 81-90.
Общий план работ на 2022-2024 гг.
2022 г.
1. Разработка теоретической базы проекта и подходов к изучению устойчивых неоднословных единиц на материале речевого корпуса.
1.1. Сравнение существующих в современной науке подходов к выделению и типологизации устойчивых неоднословных единиц.
1.2. Предварительное определение списка явлений, подлежащих анализу в рамках проекта.
2. Разработка методов для выделения устойчивых неоднословных единиц.
2.1. Определение релевантных признаков для экспертного (ручного) выделения устойчивых неоднословных единиц.
2.2. Выбор статистических метрик для автоматического выделения устойчивых неоднословных единиц.
3. Создание выборки файлов расшифровок речевого корпуса “Один речевой день” (в полном объёме в 1 млн токенов), которые будут использоваться в качестве материала исследования .
4. Создание датасетов в среде ELAN, получение списков n-грамм разной длины. Создание частотных списков n-грамм.
5. Экспертная лингвистическая интерпретация наиболее частотных n-грамм. Формирование на этой базе списка устойчивых неоднословных единиц объёмом не менее 1000 единиц.
6. Создание предварительной типологии устойчивых неоднословных единиц.
7. Разработка методов -- экспертных (ручных) и автоматических -- аннотирования устойчивых неоднословных единиц в речевом корпусе.
8. Пилотное ручное аннотирование устойчивых неоднословных единиц с использованием сформулированных релевантных признаков и предварительной типологии изучаемых явлений на подвыборке транскриптов файлов *.eaf объёмом не менее 100 тыс. токенов.
2023 г.
1. Анализ результатов ручного аннотирования устойчивых неоднословных единиц, выполненного на этапе 2021 г. Экспертная коррекция результатов аннотирования.
Лемматизация, частеречная и морфологическая разметка списка устойчивых неоднословных единиц.
3. Получение предварительной статистики о дистрибуции изучаемых единиц и их типов в файлах коммуникативных макроэпизодов; при необходимости -- коррекция методологии экспертного лингвистического аннотирования.
4. Расширение объёма аннотированного материала до 300 тыс. токенов.
5. Построение статистических моделей для автоматической кластеризации изучаемых единиц на основании результатов экспертного аннотирования расшифровок устной речи.
6. Проведение автоматической кластеризации полного списка n-грамм.
7. Экспертный анализ результатов кластеризации. Сопоставление типов единиц, полученных в результате автоматической кластеризации, и типов, предварительно описанных в рамках предыдущего этапа по разработке теоретической базы проекта.
8. Получение статистических данных об условиях реализации в устной повседневной речи устойчивых неоднословных единиц.
2024 г.
1. Адаптация и усовершенствование типологии устойчивых неоднословных единиц.
2. Поиск корреляции между употребительностью в речи говорящих устойчивых неоднословных единиц и условиями коммуникации.
3. Сопоставление полученных результатов с “золотым стандартом” (на примере коллокаций, полученных на материале текстов корпусов письменной речи).
4. Разработка базы данных с возможностью поиска по размеченным фрагментам и их типам, а также по другим признакам.
5. Подготовка теоретического описания устойчивых неоднословных единиц, описание моделей их образования и вариативности.
6. Подготовка материалов для Словаря коллокаций и других устойчивых неоднословных единиц повседневной русской речи.