Корпус русских локальных документов и актов CorRIDA: цели формирования, состав, структура

Сергей Александрович Белов, Ольга Владимировна Блинова, Виктория Борисовна Гулида, Владислав Иванович Зубов, Елена Юрьевна Ларионова, Полина Сергеевна Толстикова

Research output

22 Downloads (Pure)

Abstract

В статье описывается начальный этап создания лингвистически размеченного корпуса русских локальных документов и актов CorRIDA. В повседневной жизни носители русского языка всё чаще сталкиваются с необходимостью читать и подписывать различные официальные документы. Обычно это так называемые локальные документы, например, «Договоры на оказание платных услуг» или «Информированные согласия». Однако язык локальных документов исследован недостаточно и практически не рассматривался с применением корпусных методов.
Существующие корпусы русского языка пока не предоставляют возможностей для систематического анализа языка документа. Это связано в том числе с проблемами жанровой классификации и разметки нехудожественных текстов. Поэтому формирование корпуса локальных документов является актуальной задачей.
CorRIDA насчитывает 1,5 млн. слов, охватывает тексты, адресованные широким категориям пользователей (клиентам), принадлежащие трём социально значимым доменам (здравоохранение, образование, культура), и содержит в том числе разметку по типам текстов. Целью формирования корпуса является, во-первых, описание локальных документов разных типов через выделение и сравнение их языковых черт, во-вторых, оценка официально-деловых текстов с точки зрения их языковой сложности, удобства для восприятия и понимания «простым носителем» русского языка.
Original languageRussian
Title of host publicationКомпьютерная лингвистика и вычислительные онтологии. Выпуск 2.
Subtitle of host publication(Труды XXI Международной объединенной научной конференции «Интернет и современное общество», IMS-2017, Санкт-Петербург, 31 мая – 2 июня 2018 г. Сборник научных статей)
EditorsА.В. Добров, В.П. Захаров, О.А. Митрофанова, М.В. Хохлова
Place of PublicationСПб.
PublisherНИУ ИТМО
Pages112-120
Number of pages9
ISBN (Print)978-5-7577-0584-2
Publication statusPublished - 2018

Publication series

NameКомпьютерная лингвистика и вычислительные онтологии
PublisherУниверситет ИТМО
ISSN (Print)2541-9781

Scopus subject areas

  • Arts and Humanities(all)

Cite this

Белов, С. А., Блинова, О. В., Гулида, В. Б., Зубов, В. И., Ларионова, Е. Ю., & Толстикова, П. С. (2018). Корпус русских локальных документов и актов CorRIDA: цели формирования, состав, структура. In А. В. Добров, В. П. Захаров, О. А. Митрофанова, & М. В. Хохлова (Eds.), Компьютерная лингвистика и вычислительные онтологии. Выпуск 2.: (Труды XXI Международной объединенной научной конференции «Интернет и современное общество», IMS-2017, Санкт-Петербург, 31 мая – 2 июня 2018 г. Сборник научных статей) (pp. 112-120). (Компьютерная лингвистика и вычислительные онтологии). НИУ ИТМО.