Настоящее исследование имеет целью автоматическое извлечение лингвистической информации из контекстов Национального корпуса русского языка (НКРЯ) с последующим использованием данных в построении комплексного лексикографического ресурса – каталога русских конструкций. Предлагаемый подход предполагает автоматическую классификацию контекстов, направленную на автоматическое разрешение лексико-семантической неоднозначности (WSD) и выделение конструкций (CxI). Процедура автоматической классификации контекстов учитывает следующие типы контекстной информации, представленной в многоярусной разметке НКРЯ: лексические теги (теги лемм) (lex), морфологические теги (gr), лексико-семантические теги (sem), а также комбинации различных видов тегов. Серии экспериментов по WSD и CxI выполнены с использованием репрезентативных выборок контекстов из НКРЯ. В каждой серии экспериментов анализируются (1) различные контекстные маркеры значений целевых слов и (2) конструкции, включающие контекстные маркеры и целевые слова.
Original languageRussian
Pages (from-to)159-175
JournalСТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Volume9
StatePublished - 2012

ID: 5149739