Семантический анализатор текстов на тибетском языке: 2019г. этап 1

Project

Description

Проект направлен на создание инструментария семантического анализа текстов на тибетском языке, основанного на компьютерной лингвистической онтологии, моделирующей особенности тибетской лексической и грамматической, в том числе синтаксической семантики, специфику функционирования общеупотребительной и специальной лексики.
В данном проекте под универсальной лингвистической онтологией понимается компьютерная онтология, используемая для автоматического семантического анализа словосочетаний, предложений и текстов, т.е. семантической интерпретации произвольных синтаксических структур.
Построение онтологии для тибетского языка необходимо для исследования структуры лексико-семантических полей и значений единиц тибетского языка с учетом языковых фактов из таких областей, как структура лексических систем; полисемия и коннотации; метафорическая сочетаемость; мотивации при словообразовании («внутренняя форма») и др. Онтологическое исследование позволит не только выявить особенности вышеуказанных областей и решить некоторые задачи системной лексикографии, но и понять, насколько существенно в этом отношении отличаются классический и современный тибетский язык.
Кроме того, онтология в данном проекте будет использована в качестве стандарта семантической разметки корпуса тибетских текстов: концепты онтологии используются в качестве тэгов вершин и рёбер семантических графов в соответствии с правилами и ограничениями онтологии при работе используемого лингвистического процессора.
В данном исследовании планируется реализовать корпусный подход к построению лингвистической компьютерной онтологии для автоматического семантического анализа текстов. В рамках данного подхода онтология создаётся в непосредственной связке с автоматической семантико-синтаксической разметкой корпуса текстов; автоматическая разметка выполняется исключительно разрабатываемым семантическим анализатором текстов и верифицируется вручную.
Результатом корректировок онтологии в соответствии со всеми обнаруживаемыми недостатками автоматической семантической разметки является единая непротиворечивая модель, позволяющая лингвистическому процессору корректно анализировать все явления семантики, представленные в корпусе текстов.
AcronymRFBR_a_2019 - 1
StatusActive
Effective start/end date1/01/1925/12/19