Research output: Chapter in Book/Report/Conference proceeding › Article in an anthology › Research
Сегментация текста в проекте «Открытый корпус». / Бочаров, В.В.; Алексеева, С.В.; Грановский, Д.В.; Остапук, Н.А.; Степанова, М.Е.; Суриков, А.В.
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Российский государственный гуманитарный университет, 2012. p. 51-60.Research output: Chapter in Book/Report/Conference proceeding › Article in an anthology › Research
}
TY - CHAP
T1 - Сегментация текста в проекте «Открытый корпус»
AU - Бочаров, В.В.
AU - Алексеева, С.В.
AU - Грановский, Д.В.
AU - Остапук, Н.А.
AU - Степанова, М.Е.
AU - Суриков, А.В.
PY - 2012
Y1 - 2012
N2 - Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.
AB - Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.
KW - корпус
KW - сегментация
KW - токенизация
KW - графематика
KW - машинное обучение
UR - https://elibrary.ru/item.asp?id=25575024
M3 - статья в сборнике
SP - 51
EP - 60
BT - Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)
PB - Российский государственный гуманитарный университет
ER -
ID: 4589907