Настоящее исследование имеет целью автоматическое извлечение лингвистической информации из контекстов Национального корпуса русского языка (НКРЯ) с последующим использованием данных в построении комплексного лексикографического ресурса – каталога русских конструкций. Предлагаемый подход предполагает автоматическую классификацию контекстов, направленную на автоматическое разрешение лексико-семантической неоднозначности (WSD) и выделение конструкций (CxI). Процедура автоматической классификации контекстов учитывает следующие типы контекстной информации, представленной в многоярусной разметке НКРЯ: лексические теги (теги лемм) (lex), морфологические теги (gr), лексико-семантические теги (sem), а также комбинации различных видов тегов. Серии экспериментов по WSD и CxI выполнены с использованием репрезентативных выборок контекстов из НКРЯ. В каждой серии экспериментов анализируются (1) различные контекстные маркеры значений целевых слов и (2) конструкции, включающие контекстные маркеры и целевые слова.
Язык оригиналарусский
Страницы (с-по)159-175
ЖурналСТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Том9
СостояниеОпубликовано - 2012

    Области исследований

  • разрешение лексико-семантической неоднозначности, конструкции, выделение конструкций, Национальный корпус русского языка, классификация контекстов

ID: 5149739