Сегментация текста в проекте «Открытый корпус»

В.В. Бочаров, С.В. Алексеева, Д.В. Грановский, Н.А. Остапук, М.Е. Степанова, А.В. Суриков

Research output

Abstract

Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.
Original languageRussian
Title of host publicationКомпьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)
PublisherРоссийский государственный гуманитарный университет
Pages51-60
Publication statusPublished - 2012

Cite this

Бочаров, В. В., Алексеева, С. В., Грановский, Д. В., Остапук, Н. А., Степанова, М. Е., & Суриков, А. В. (2012). Сегментация текста в проекте «Открытый корпус». In Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.) (pp. 51-60). Российский государственный гуманитарный университет.
Бочаров, В.В. ; Алексеева, С.В. ; Грановский, Д.В. ; Остапук, Н.А. ; Степанова, М.Е. ; Суриков, А.В. / Сегментация текста в проекте «Открытый корпус». Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Российский государственный гуманитарный университет, 2012. pp. 51-60
@inbook{cbb773c5f17e4e308d6282ebe92e7dcb,
title = "Сегментация текста в проекте «Открытый корпус»",
abstract = "Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.",
keywords = "корпус, сегментация, токенизация, графематика, машинное обучение",
author = "В.В. Бочаров and С.В. Алексеева and Д.В. Грановский and Н.А. Остапук and М.Е. Степанова and А.В. Суриков",
year = "2012",
language = "русский",
pages = "51--60",
booktitle = "Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)",
publisher = "Российский государственный гуманитарный университет",
address = "Российская Федерация",

}

Бочаров, ВВ, Алексеева, СВ, Грановский, ДВ, Остапук, НА, Степанова, МЕ & Суриков, АВ 2012, Сегментация текста в проекте «Открытый корпус». in Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Российский государственный гуманитарный университет, pp. 51-60.

Сегментация текста в проекте «Открытый корпус». / Бочаров, В.В.; Алексеева, С.В.; Грановский, Д.В.; Остапук, Н.А.; Степанова, М.Е.; Суриков, А.В.

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Российский государственный гуманитарный университет, 2012. p. 51-60.

Research output

TY - CHAP

T1 - Сегментация текста в проекте «Открытый корпус»

AU - Бочаров, В.В.

AU - Алексеева, С.В.

AU - Грановский, Д.В.

AU - Остапук, Н.А.

AU - Степанова, М.Е.

AU - Суриков, А.В.

PY - 2012

Y1 - 2012

N2 - Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.

AB - Сегментация текста на слова и предложения является необходимым этапом автоматической обработки текста. Последующие этапы анализа существенным образом зависят от принятых соглашений о делении на слова и предложения. В проекте Открытый корпус вручную была проведена сегментация текста объёмом более 600 тыс. текстоформ. Полученные данные были использованы в качестве обучающей выборки для создания модуля автоматической сегментации.

KW - корпус

KW - сегментация

KW - токенизация

KW - графематика

KW - машинное обучение

UR - https://elibrary.ru/item.asp?id=25575024

M3 - статья в сборнике

SP - 51

EP - 60

BT - Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.)

PB - Российский государственный гуманитарный университет

ER -

Бочаров ВВ, Алексеева СВ, Грановский ДВ, Остапук НА, Степанова МЕ, Суриков АВ. Сегментация текста в проекте «Открытый корпус». In Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Российский государственный гуманитарный университет. 2012. p. 51-60