Семантический анализатор текстов на тибетском языке: 2019г. этап 1

Смирнова, Мария Олеговна (руководитель)
Джангольская, Ольга Владимировна (исполнитель)
Сомс, Николай Леонидович (исполнитель)
Крамскова, Анна Сергеевна (исполнитель)
Добров, Алексей Владимирович (исполнитель)
Доброва, Анастасия Евгеньевна (исполнитель)
Захаров, Виктор Павлович (исполнитель)

описание

Проект направлен на создание инструментария семантического анализа текстов на тибетском языке, основанного на компьютерной лингвистической онтологии, моделирующей особенности тибетской лексической и грамматической, в том числе синтаксической семантики, специфику функционирования общеупотребительной и специальной лексики.
В данном проекте под универсальной лингвистической онтологией понимается компьютерная онтология, используемая для автоматического семантического анализа словосочетаний, предложений и текстов, т.е. семантической интерпретации произвольных синтаксических структур.
Построение онтологии для тибетского языка необходимо для исследования структуры лексико-семантических полей и значений единиц тибетского языка с учетом языковых фактов из таких областей, как структура лексических систем; полисемия и коннотации; метафорическая сочетаемость; мотивации при словообразовании («внутренняя форма») и др. Онтологическое исследование позволит не только выявить особенности вышеуказанных областей и решить некоторые задачи системной лексикографии, но и понять, насколько существенно в этом отношении отличаются классический и современный тибетский язык.
Кроме того, онтология в данном проекте будет использована в качестве стандарта семантической разметки корпуса тибетских текстов: концепты онтологии используются в качестве тэгов вершин и рёбер семантических графов в соответствии с правилами и ограничениями онтологии при работе используемого лингвистического процессора.
В данном исследовании планируется реализовать корпусный подход к построению лингвистической компьютерной онтологии для автоматического семантического анализа текстов. В рамках данного подхода онтология создаётся в непосредственной связке с автоматической семантико-синтаксической разметкой корпуса текстов; автоматическая разметка выполняется исключительно разрабатываемым семантическим анализатором текстов и верифицируется вручную.
Результатом корректировок онтологии в соответствии со всеми обнаруживаемыми недостатками автоматической семантической разметки является единая непротиворечивая модель, позволяющая лингвистическому процессору корректно анализировать все явления семантики, представленные в корпусе текстов.

Акроним	RFBR_a_2019 - 1
Статус	Завершено
Эффективные даты начала/конца	19/03/19 → 25/12/19

Области исследований

компьютерные онтологии, онтологическая семантика, синтаксическая семантика, тибетский язык, семантическая разметка, корпус текстов, семантический анализатор

ID: 37544917