Морфосинтаксический анализатор текстов на тибетском языке: 2018 г. этап 3

  • Бондаревич, Александр Андреевич (исполнитель)
  • Добров, Алексей Владимирович (исполнитель)
  • Доброва, Анастасия Евгеньевна (исполнитель)
  • Захаров, Виктор Павлович (исполнитель)
  • Крамскова, Анна Сергеевна, (исполнитель)
  • Лебедева, Юлия Николаевна, (исполнитель)
  • Смирнова, Мария Олеговна (исполнитель)
  • Сомс, Николай Леонидович (исполнитель)
  • Ступников, Павел Владимирович (исполнитель)
  • Гроховский, Павел Леонович, (руководитель)

Проект: исполнение гранта/договораисполнение этапа гранта/договора

описание

Целью данной работы является создание последовательного формально-грамматического описания (формальной грамматики) тибетского языка, включающего в себя все грамматические уровни языковой системы — от морфосинтаксиса (синтактики морфем) до синтаксиса сложных предложений и сверхфразовых единств на базе размеченной коллекции (корпуса) тибетских грамматических сочинений. На сегодняшний день существуют лишь немногочисленные работы (в том числе написанные руководителем данного проекта), в которых описывается, преимущественно, морфологический уровень тибетского языка; тибетский синтаксис описывается менее системно; на сегодняшний день формально-лингвистические модели тибетского синтаксиса представлены лишь в монографии "Классический тибетский язык" американского тибетолога Стивена Бейера (1994), не вполне отражают систему тибетских синтаксических единиц и часто имеют умозрительный характер (не подкреплены данными текстовых корпусов).








основные результаты по проекту в целом

В рамках проекта была разработана синтаксическая разметка для корпуса тибетских текстов, отражающая информацию об особенностях тибетских структур составляющих и зависимостей, о системе тибетских грамматических категорий, их возможных значений и ограничений на их совмещение; создан синтаксически размеченный корпус тибетских текстов, в котором отражены структуры высказываний, из которых состоят тексты, от уровня морфосинтаксиса до уровня сложных предложений и сверхфразовых единств.
Был разработан формально-грамматический языковой модуль открытой системы обработки текстов на естественных языках, позволяющий этой системе автоматически анализировать тексты на тибетском языке, выполняя полный морфологический и синтаксический разбор каждого предложения. В общей сложности в созданной комбинированной грамматике непосредственных составляющих и зависимостей разработано 500 различных классов непосредственных составляющих, для которых указана информация о допустимых главных и зависимых дочерних составляющих, об их грамматических свойствах, способах линеаризации, возможностях эллипсиса, о типах отношений зависимости и иных свойствах, используемых морфосинтаксическим анализатором при обработке текста.
В качестве отдельного (базового) грамматического модуля был создан модуль системы тибетских грамматических категорий, их возможных значений и ограничений на их совмещение. Для работы с морфологией и морфонологией тибетского языка были созданы несколько специализированных файлов: файл grammarDefines.py для определения типов выделенных токенов, их свойств и ограничений, и несколько файлов, содержащих разные типы атомов (словари алломорфов), где для каждого алломорфа указана морфема, тип токена и свойства в соответствии с файлом grammarDefines.py.
Была построена разметка структур более высокого уровня — словосочетаний и простых предложений, сложных предложений и некоторых типов сверхфразовых единств. В процессе этой работы древовидные структуры синтаксической разметки были объединены в более крупные древовидные комплексы, с учётом информации о способах линеаризации дочерних составляющих и их грамматических свойствах, а также о классах синтаксических единиц, в том числе — коннекторов и иных средств объединения простых предложений.
В рамках выполнения проекта был обнаружен ряд фундаментальных проблем, препятствующих реализации морфосинтаксического анализа тибетского текста в отрыве от семантики. Для разрешения морфосинтаксической неоднозначности, обусловленной множеством грамматически корректных, но семантически бессмысленных вариантов разбиения сложных предложений на компоненты; использовалась компьютерная онтология AIIRE. В данном исследовании, как и во многих других, под онтологией понимается база данных, содержащая информацию о концептах и отношениях между ними и, фактически, являющаяся эксплицитной спецификацией концептуализации. Концепты представляют собой формальные (математические, компьютерные) модели понятий. Концепты онтологий включают в себя атрибуты и связаны между собой отношениями. Атрибуты и отношения взаимосвязаны: участие концепта в некотором отношении может трактоваться как атрибут и наоборот. Отношения между концептами характеризуются бинарностью и направленностью и могут быть представлены в виде логических формул, определенных в терминах некоторого исчисления, задающего правила логического вывода. В настоящий момент онтология, разрабатываемая для данного исследования, содержит 4335 концептов, являющихся значениями 3943 тибетских выражений.
Семантическая разметка выполняется вышеупомянутым лингвистическим процессором в процессе анализа текста путём семантической интерпретации синтаксических структур. Данный лингвистический процессор реализует так называемый метод межуровневого взаимодействия: неоднозначность анализа на нижестоящих уровнях разрешается за счёт отсутствия возможности интерпретации на вышестоящем уровне. Таким образом, в частности, отсутствие возможности семантической интерпретации позволяет исключать семантически некорректные версии анализа синтаксических структур.
В программном обеспечении корпус-менеджера была доработана расширенная функциональность поиска по синтаксическим деревьям с целью поиска сложных предложений и сверхфразовых единств по их синтаксическим структурам. Реализованный способ хранения морфосинтаксической и синтаксической разметки предполагает использование одинаковых представлений результатов поиска как для сверхфразовых единств, предложений или словосочетаний, так и для токенов, что позволяет осуществлять поиск не только по структурам словосочетаний, предложений и сверхфразовых единств, но и по разметке внутренних структур единиц, ранее считавшихся токенами.
Разработанные материалы размещены на корпусном портале СПбГУ http://corpora.spbu.ru

описание вклада в работу каждого из участников, допустима оценка в процентах (учётная форма ЦИТиС)

Бондаревич А: тестирование модуля формальной грамматики, разработка классов непосредственных составляющих для словообразовательных моделей, моделей именных групп; моделей сложных предложений.
Гроховский П.Л.: доработка комбинированной грамматики непосредственных составляющих и зависимостей тибетского языка на уровне структур словосочетаний, простых и сложных предложений, сверхфразовых единств, отражающая все выделенные в ходе разметки классы моделей, требуемые ими способы линеаризации дочерних составляющих и их грамматические свойства.
Добров А.В.: разработка формата разметки, разработка модуля грамматических категорий и формальной грамматики, настройка и отладка лингвистического процессора. Разработка инструментария, осуществляющего семантическое связывание.
Доброва А.Е.: верификация морфосинтаксической разметки и разработка средств такой верификации; компьютерное моделирование орфографических, морфонологических и грамматических ограничений на сочетаемость единиц тибетского морфосинтаксиса с целью преодоления синтаксической неоднозначности.
Захаров В.П. Тестирование морфосинтаксического анализатора, оценка качества (характеристик покрытия, степени и характера неоднозначности при анализе) разработанной грамматики, а также корректности разметки корпуса.
Крамскова А.С. - создание версии разметки данного корпуса, в которой будут отражены структуры непосредственных составляющих и зависимостей, соответствующие единицам, ранее выделенным в качестве токенов, сложных предложений и сверхфразовых единств.
Лебедева Ю.Н - анализ опыта разработки системы правил морфологического анализа, полученного британскими исследователями Нейтеном Хиллом, Эдвардом Гарреттом и Ульрихом Пагелем (Школа востоковедения и африканистики при Лондонском университете) при создании их морфологического анализатора.
Михайлова М.О: тестирование модуля формальной грамматики, разработка классов непосредственных составляющих для моделей глагольных групп.
Смирнова М.О. - разработка модуля системы тибетских грамматических категорий, их возможных значений и ограничений на их совмещение. Разработка моделей разметки словосочетаний и простых предложений; структур сложных предложений и сверхфразовых единств. Работа с онтологией для обеспечения семантического связывания компонентов именных композитов, идиматических именных морфокомплексов и конструкций с глагольным управлением.
Сомс Н.Л.: разработка модулей сегментации, индексирования и поиска по корпусу текстов в составе корпус менеджера; разработка подсистемы загрузки текстов в корпус-менеджер в формате XML.
Ступников П: разработка средств визуализации деривационных и синтаксических структур, разработка средств индексирования и поиска по корпусу, разработка архитектуры корпус-менеджера.

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается
Короткий заголовок__
АббревиатураRFBR_a_2016 - 3
СтатусЗавершено
Действительная дата начала/окончания18/03/1815/12/18

Ключевые слова

  • грамматика
  • тибетский язык
  • синтаксис
  • Лингвистика