Методы поиска плагиата в кодах программ

Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование

Ссылки

https://izv.etu.ru/assets/files/izvestiya-6_2019_p061-066.pdf
Конечная издательская версия

И.А. Посов
В.Е. Допира

Изучены такие виды представления данных для поиска плагиата в кодах программ, как текст без преобразований, n-граммы и токены. На языке программирования Python реализовано разбиение текстов программ из массива решений студентов на токены. Сформулированы требования к алгоритмам обнаружения плагиата. Проведен обзор метрик для обнаружения плагиата в текстах программ. Выделены преимущества и недостатки для каждой метрики. Сравнение проведено по критериям: время, память, вероятность найти пару похожих программ, вероятность того, что найденная пара будет действительно похожа. После сравнения метрик: численных значений атрибутов, наибольшей общей подпоследовательности, расстояния Жаккара, расстояния Левенштейна и расстояния Колмогорова, между собой для реализации выбран расчет расстояния Левенштейна. На языке программирования Python реализован алгоритм расчета расстояния Левенштейна для списка токенов. Полученные результаты показывают, насколько тексты программ похожи между собой.

Переведенное название	PLAGIARISM SEARCHING METHODS TO IN PROGRAM CODES
Язык оригинала	русский
Страницы (с-по)	61-66
Журнал	ИЗВЕСТИЯ СПБГЭТУ ЛЭТИ
Том	6
Состояние	Опубликовано - 2019
Опубликовано для внешнего пользования	Да

Области исследований

плагиат, метрики для обнаружения плагиата, токен

ID: 52379413

Pure – это продукт компании Elsevier
На данном информационном ресурсе могут быть опубликованы архивные материалы
с упоминанием физических и юридических лиц, включенных Министерством юстиции
Российской Федерации в реестр иностранных агентов

Вход в Pure