Создание и разметка параллельного чешско-русского корпуса

Проект: исполнение гранта/договораисполнение гранта/договора в целом

описание

Конечная цель проекта — создание параллельного чешско-русского корпуса по теме «империя». Корпус должен включать тексты, в основе содержания которых лежит лингвокультурный концепт «империя». Корпусы текстов как инструменты лингвистического анализа в настоящее время стали неотъемлемой частью фундаментальной и прикладной лингвистики. Все современные лингвистические исследования и работы так или иначе ориентированы на использование представительных корпусов текстов.
Понятие «империя» играло и играет важную роль в русском и чешском языках и языковом сознании русских и чехов, и исследование его методами компьютерного контент-анализа, базирующимися на дистрибутивно-статистических методах, представляет большой интерес. Одновременно этот корпус может быть использован и как чисто языковой корпус для сравнительных лингвистических и переводоведческих исследований русского и чешского языков.
Корпус будет включать собственно параллельный корпус и сопоставимый корпус, составленный из разных текстов, но посвященных одной и той же теме. Учитывая трудоемкость создания корпуса, сопоставимый корпус планируется создавать, в основном, по технологии wacky на основе текстов, хранящихся в веб-пространстве. На базе корпуса с привлечением других источников планируется получить фрагмент семантического описания русского и чешского языков, представленный в виде электронного словаря-тезауруса.
Ключевое место в технологии создания корпусов занимает процедура разметки. Содержательная разметка данных корпуса определяется теоретической интерпретацией семантических и грамматических категорий. Формальная разметка - это языки и стандарты представления данных в корпусной лингвистике. Оба аспекта нашли богатое развитие в работе чешских корпусных лингвистов. Консультации с чешскими коллегами будут способствовать выработке принципов разметки создаваемого корпуса.
Заявитель проекта является одним из ведущих специалистов по корпусной лингвистике в стране. Помимо преподавательской и научной работы, он является организатором единственной в России конференции по корпусной лингвистике, которую проводит СПбГУ. Под его руководством создан портал СПбГУ по корпусной лингвистике. Заявителем по данной тематике опубликованы 24 работы в изданиях, индексируемых базами данных Web of Science и Scopus, из них 21 за последние 5 лет. Является одним из победителей конкурса на премии СПбГУ «За научные труды» за 2017 год в категории «За фундаментальные достижения в науке» за цикл работ на тему «Корпусы русского языка и корпусные исследования». Стоит отметить его участие в работе по созданию русско-китайского параллельного корпуса и публикации о новой технологии создания мегакорпусов на базе веба. Выступал с приглашенным докладом о корпусах русского языка на конференции Text, Speech and Dialogue (Czech Republic). Получен грант РФФИ № 18-012-00474 «Семантическое поле «империя» в русском, английском и чешском языках» (2018-2020).
Выбор принимающей организации не случаен. Коллеги из Института теоретической и компьютерной лингвистики во главе с д-ром Владимиром Петкевичем имеют большой опыт в создании корпусов, в частности, они участвовали в создании 25-язычного параллельного корпуса InterCorp. Также поездка в Карлов университет интересна с точки зрения изучения опыта использования технологии Wacky для создания корпусов на основе ресурсов Интернета. В России такого опыта практически нет. Также будет полезен опыт этого же коллектива по совмещению морфологической и синтаксической разметки в Чешском национальном корпусе (подкорпус SYN2015).
В ходе визита в Карлов университет будет прочитан цикл лекций в Институте теоретической и компьютерной лингвистики, посвященных корпусам русского языка, их морфологической и синтаксической разметке. Результатом консультаций с чешскими специалистами будут согласованные принципы морфологической разметки двух частей (русской и чешской) параллельного корпуса, список терминов-понятий, описывающих наполнение концепта «империя» в чешском языке, а также список текстов по данной тематике на чешском языке (включая переводы на чешский язык), который будет собран в результате работы в чешских библиотеках.
Планируется использование результатов работы в учебном процессе, а именно, включение информации о чешской корпусной лингвистике в курсы, читаемые автором на кафедре математической лингвистики («Корпусная лингвистика» у бакалавров и «Корпусы при автоматической обработке текста» у магистров), а также привлечение студентов к реализации проекта.

описание для неспециалистов

Принимающий университет: Карлов университет
Принимающее подразделение: Institute of Theoretical and Computational Linguistics
Контактное лицо: Assoc. Prof., RNDr. Vladimír Petkevič, CSc.

основные результаты по проекту в целом

В ходе визита я ознакомился с разработками Института, которые он ведет в рамках сотрудничества с Чешским национальным корпусом, а именно: создание корпуса с синтаксической разметкой и создание и ведение корпуса InterCorp. В последнем я изучил принципы создания инструмента Treq, обеспечивающего поиск на базе корпуса переводческих эквивалентов. В процессе знакомства с с морфоразметчиками чешского языка я изучил новый анализатор, разработанный в Институте формальной и прикладной лингвистики Карлова ун-та - Morfodita. Также я ознакомил чешских коллег с проектом «Семантическое поле «империя» в русском, английском и чешском языках» и обсудил с ними создание параллельного русско-чешского корпуса по теме "империя". Задача осложняется малым количеством параллельных текстов на 2 языках на эту тему. Как альтернатива, обсуждалась возможность создания сопоставимого корпуса. Для этого мною была начата работа по поиску соответствующих текстов в фондах Чешской национальной библиотеки. Некоторое количество текстов было мне передано в электронном виде. Обсуждался также и более широкий круг тем с точки зрения возможного сотрудничества, в частности, работа над описанием русской фразеологии в соответствии с методологией, выработанной в Ин-те теоретической и компьютерной лингвистики. Была достигнута договоренность о визите проф. В. Петкевича в Санкт-Петербург летом 2019 г.
Результатов работы в учебном процессе, а именно, информация о чешской корпусной лингвистике включена в курсы, читаемые автором на кафедре математической лингвистики («Корпусная лингвистика» у бакалавров и «Корпусы при автоматической обработке текста» у магистров), а студенты привлекаются к реализации проекта.
Выступление с докладом на конференции ARANEA 2018. Web Corpora as a Language Training Tool.
Короткий заголовокКорпус "Империя"
АббревиатураExchange 2018
СтатусЗавершено
Действительная дата начала/окончания19/11/1828/11/18

Ключевые слова

  • семантическое поле;
  • понятие империи;
  • ;концепт;
  • корпусы;
  • дистрибутивно-статистический анализ;