Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.
Original languageRussian
Title of host publicationКомпьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)
PublisherРоссийский государственный гуманитарный университет
Pages51-60
StatePublished - 2012

ID: 4589907