Извлечение коллокаций представляет собой одну из актуальных задач в обработке естественного языка, результаты которой важны и востребованы в разных областях прикладной лингвистики. Наше исследование посвящено сравнению пятнадцати статистических мер, проведенному на подмножестве русскоязычного корпуса «Тайга». Были рассмотрены автоматически извлеченные глагольные коллокации . В ходе экспериментов изучались отличия между статистичсекими метриками, а также была предпринята попытка найти наиболее эффективную из них для русского языка. Вычислялся коэффициент ранговой корреляции Спирмена между мерами, а также извлеченные словосочетания оценивались относительно данных словаря, то есть проводилось сравнение между полученными автоматически и «вручную» словосочетаниями. Полученные результаты показывают, что некоторые меры показывают сходство и относительную взаимозаменяемость.
Переведенное название ON SIMILARITY BETWEEN ASSOCIATION MEASURES FOR AUTOMATIC EXTRACTION: A CASE STUDY OF VERBAL COLLOCATIONS
Язык оригиналарусский
Страницы (с-по)9-18
ЖурналКомпьютерная лингвистика и вычислительные онтологии
Номер выпуска3
СостояниеОпубликовано - 2019

    Области исследований

  • ГЛАГОЛЬНЫЕ КОЛЛОКАЦИИ, корпус текстов, СТАТИСТИКА, СЛОВАРИ, МЕРЫ АССОЦИАЦИИ, ОЦЕНКА

ID: 50363453