Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты

Research outputpeer-review

1 Downloads (Pure)

Abstract

The article describes the experience of pragmatic markers (PM) annotation in two Russian speech corpora: “One Speaker’s Day” (ORD; dialogues) and “Balanced Annotated Textotec” (SAT; monologues). To prepare an optimal PM annotation scheme, 4 pilot annotations were conducted on samples from ORD and SAT. It made it possible to form the final list of PM: 450 units, representing variants of 53 basic structural types. Processing the results of the pilot annotation allowed to obtain preliminary data on frequency of individual pragmatic markers and their types, as well as on the dependence of PM usage on sex and the level of speech competence of the speaker. As a result of statistical data processing, frequency lists of both PMs and their functions were obtained. The most commonly used in the dialogue are the PM вот, which is usually used as a «boundary marker» (G), and the PM там, which is usually used as a hesitative and/or rhythm-forming marker. In the monologue, the upper zone of the frequency list of the PMs is also full of boundary markers (G), marking the beginning/end of the monologue or serving as navigators in the text (вот/ну вот, значит, так). The most frequent types of PMs in dialogue are: X (hesitative markers), M (meta-communicative marker), GХ (boundary/hesitative marker), K (xeno-indicator marker that introduces someone’s speech), RX (rhythm-forming/hesitative marker). In the list of the most frequent types of PMs in monologue speech, the markers of the type GX (boundary/hesitative marker) and X (hesitative marker) are in the lead. The analysis of the frequency lists of PMs showed that we can talk about statistically significant differences in the use of PMs in dialogue and monologue.
Original languageRussian
Title of host publicationКомпьютерная лингвистика и интеллектуальные технологии
Subtitle of host publicationПо материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.)
EditorsВ.П. Селегей
Place of PublicationМосква
Pages72-85
Volume18
Publication statusPublished - 29 May 2019
EventМеждународная конференция "Диалог" - Москва
Duration: 29 May 20191 Jun 2019

Publication series

NameКомпьютерная лингвистика и интеллектуальные технологии
PublisherРоссийский государственный гуманитарный университет
ISSN (Print)2221-7932

Conference

ConferenceМеждународная конференция "Диалог"
CountryRussian Federation
CityМосква
Period29/05/191/06/19

Fingerprint

Annotation
Pragmatic Markers
Monologue
Frequency Lists
Satisfiability
Speech Rhythm
Rhythm

Scopus subject areas

  • Arts and Humanities(all)
  • Computer Science(all)

Cite this

Богданова-Бегларян, Н. В., Блинова, О. В., Мартыненко, Г. Я., Шерстинова, Т. Ю., Зайдес, К. Д., & Попова, Т. И. (2019). Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты. In В. П. Селегей (Ed.), Компьютерная лингвистика и интеллектуальные технологии : По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.) (Vol. 18, pp. 72-85). (Компьютерная лингвистика и интеллектуальные технологии). Москва.
Богданова-Бегларян, Н.В. ; Блинова, О.В. ; Мартыненко, Г.Я. ; Шерстинова, Т.Ю. ; Зайдес, К.Д. ; Попова, Т.И. / Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты. Компьютерная лингвистика и интеллектуальные технологии : По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). editor / В.П. Селегей. Vol. 18 Москва, 2019. pp. 72-85 (Компьютерная лингвистика и интеллектуальные технологии).
@inproceedings{cd8533e1187a4e42a34d7ae6af70ca39,
title = "Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты",
abstract = "В статье описывается опыт аннотирования прагматических маркеров (ПМ) в двух русских речевых корпусах: «Один речевой день» (ОРД; диалоги) и «Сбалансированная аннотированная текстотека» (САТ; монологи). Для подготовки сплошной разметки ПМ было проведено 4 пилотных аннотирования на выборках из ОРД и САТ, что позволило сформировать итоговый список ПМ: 450 единиц, представляющих собой варианты 53 базовых структурных типов. В ходе обработки результатов пилотного аннотирования удалось получить предварительные данные о частоте встречаемости отдельных прагматических маркеров и их типов, а также о зависимости употребления ПМ от пола и уровня речевой компетенции говорящего. В результате обработки данных были получены частотные списки как самих ПМ, так и выполняемых ими функций",
keywords = "русская повседневная речь, речевой корпус, прагматический маркер, корпусная разметка, монолог, диалог",
author = "Н.В. Богданова-Бегларян and О.В. Блинова and Г.Я. Мартыненко and Т.Ю. Шерстинова and К.Д. Зайдес and Т.И. Попова",
note = "Богданова-Бегларян Н. В., Блинова О. В. , Мартыненко Г. Я., Шерстинова Т. Ю., Зайдес К. Д., Попова Т. И. Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая – 1 июня 2019 г.). Вып. 18 (25), 2019 / Гл. ред. В. П. Селегей. С. 72-85.",
year = "2019",
month = "5",
day = "29",
language = "русский",
volume = "18",
series = "Компьютерная лингвистика и интеллектуальные технологии",
publisher = "Российский государственный гуманитарный университет",
pages = "72--85",
editor = "В.П. Селегей",
booktitle = "Компьютерная лингвистика и интеллектуальные технологии",

}

Богданова-Бегларян, НВ, Блинова, ОВ, Мартыненко, ГЯ, Шерстинова, ТЮ, Зайдес, КД & Попова, ТИ 2019, Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты. in ВП Селегей (ed.), Компьютерная лингвистика и интеллектуальные технологии : По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). vol. 18, Компьютерная лингвистика и интеллектуальные технологии, Москва, pp. 72-85, Москва, 29/05/19.

Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты. / Богданова-Бегларян, Н.В.; Блинова, О.В.; Мартыненко, Г.Я.; Шерстинова, Т.Ю.; Зайдес, К.Д.; Попова, Т.И.

Компьютерная лингвистика и интеллектуальные технологии : По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). ed. / В.П. Селегей. Vol. 18 Москва, 2019. p. 72-85 (Компьютерная лингвистика и интеллектуальные технологии).

Research outputpeer-review

TY - GEN

T1 - Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты

AU - Богданова-Бегларян, Н.В.

AU - Блинова, О.В.

AU - Мартыненко, Г.Я.

AU - Шерстинова, Т.Ю.

AU - Зайдес, К.Д.

AU - Попова, Т.И.

N1 - Богданова-Бегларян Н. В., Блинова О. В. , Мартыненко Г. Я., Шерстинова Т. Ю., Зайдес К. Д., Попова Т. И. Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая – 1 июня 2019 г.). Вып. 18 (25), 2019 / Гл. ред. В. П. Селегей. С. 72-85.

PY - 2019/5/29

Y1 - 2019/5/29

N2 - В статье описывается опыт аннотирования прагматических маркеров (ПМ) в двух русских речевых корпусах: «Один речевой день» (ОРД; диалоги) и «Сбалансированная аннотированная текстотека» (САТ; монологи). Для подготовки сплошной разметки ПМ было проведено 4 пилотных аннотирования на выборках из ОРД и САТ, что позволило сформировать итоговый список ПМ: 450 единиц, представляющих собой варианты 53 базовых структурных типов. В ходе обработки результатов пилотного аннотирования удалось получить предварительные данные о частоте встречаемости отдельных прагматических маркеров и их типов, а также о зависимости употребления ПМ от пола и уровня речевой компетенции говорящего. В результате обработки данных были получены частотные списки как самих ПМ, так и выполняемых ими функций

AB - В статье описывается опыт аннотирования прагматических маркеров (ПМ) в двух русских речевых корпусах: «Один речевой день» (ОРД; диалоги) и «Сбалансированная аннотированная текстотека» (САТ; монологи). Для подготовки сплошной разметки ПМ было проведено 4 пилотных аннотирования на выборках из ОРД и САТ, что позволило сформировать итоговый список ПМ: 450 единиц, представляющих собой варианты 53 базовых структурных типов. В ходе обработки результатов пилотного аннотирования удалось получить предварительные данные о частоте встречаемости отдельных прагматических маркеров и их типов, а также о зависимости употребления ПМ от пола и уровня речевой компетенции говорящего. В результате обработки данных были получены частотные списки как самих ПМ, так и выполняемых ими функций

KW - русская повседневная речь, речевой корпус, прагматический маркер, корпусная разметка, монолог, диалог

UR - http://www.dialog-21.ru/media/4588/bogdanova-beglariannvplusetal-040.pdf

M3 - статья в сборнике материалов конференции

VL - 18

T3 - Компьютерная лингвистика и интеллектуальные технологии

SP - 72

EP - 85

BT - Компьютерная лингвистика и интеллектуальные технологии

A2 - Селегей, В.П.

CY - Москва

ER -

Богданова-Бегларян НВ, Блинова ОВ, Мартыненко ГЯ, Шерстинова ТЮ, Зайдес КД, Попова ТИ. Аннотирование прагматических маркеров в русском речевом корпусе: проблемы, поиски, решения, результаты. In Селегей ВП, editor, Компьютерная лингвистика и интеллектуальные технологии : По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). Vol. 18. Москва. 2019. p. 72-85. (Компьютерная лингвистика и интеллектуальные технологии).