Сегментация текста в проекте «Открытый корпус»

Сегментация текста в проекте «Открытый корпус»

Результаты исследований: Публикации в книгах, отчётах, сборниках, трудах конференций › статья в сборнике › научная

Кафедра информационных систем в искусстве и гуманитарных науках

Ссылки

http://www.dialog-21.ru/digest/2012/pdf1/

В.В. Бочаров
С.В. Алексеева
Д.В. Грановский
Н.А. Остапук
М.Е. Степанова
А.В. Суриков

Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.

Язык оригинала	русский
Название основной публикации	Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)
Издатель	Российский государственный гуманитарный университет
Страницы	51-60
Состояние	Опубликовано - 2012

Области исследований

корпус, сегментация, токенизация, графематика, машинное обучение

ID: 4589907

Pure – это продукт компании Elsevier
На данном информационном ресурсе могут быть опубликованы архивные материалы
с упоминанием физических и юридических лиц, включенных Министерством юстиции
Российской Федерации в реестр иностранных агентов

Вход в Pure