DISCOVERING NEAR DUPLICATE TEXT IN SOFTWARE DOCUMENTATION › Научные исследования в СПбГУ

При создании документации программного обеспечения часто применяется копирование и вставка с последующим редактированием, в результате чего возникает много повторяющегося текста. Такие повторы усложняют и удорожают поддержку документации, особенно в случае длительных жизненных циклов программного обеспечения и документации. Ещё более усложняет ситуацию то, что зачастую информация повторяется приблизительно, т.е. одна и та же информация может быть многократно представлена с разными уровнями детализации, в различных контекстах и т.д. В данной работе предложен алгоритм, предназначенный для обнаружения неточных повторов в документации программного обеспечения. Алгоритм основан на модели N-грамм и реализован с использованием Natural Language Toolkit. Алгоритм апробирован на документации нескольких проектов с открытым исходным кодом.

Переведенное название	Обнаружение неточно повторяющегося текста в документации программного обеспечения
Язык оригинала	английский
Страницы (с-по)	303-314
Журнал	Труды института системного программирования РАН
Том	29
Номер выпуска	4
Состояние	Опубликовано - 2017