Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.
Язык оригиналарусский
Название основной публикацииКомпьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)
ИздательРоссийский государственный гуманитарный университет
Страницы51-60
СостояниеОпубликовано - 2012

    Области исследований

  • корпус, сегментация, токенизация, графематика, машинное обучение

ID: 4589907