Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
Методы поиска плагиата в кодах программ. / Посов, И.А.; Допира, В.Е.
в: ИЗВЕСТИЯ СПБГЭТУ ЛЭТИ, Том 6, 2019, стр. 61-66.Результаты исследований: Научные публикации в периодических изданиях › статья › Рецензирование
}
TY - JOUR
T1 - Методы поиска плагиата в кодах программ
AU - Посов, И.А.
AU - Допира, В.Е.
PY - 2019
Y1 - 2019
N2 - Изучены такие виды представления данных для поиска плагиата в кодах программ, как текст без преобразований, n-граммы и токены. На языке программирования Python реализовано разбиение текстов программ из массива решений студентов на токены. Сформулированы требования к алгоритмам обнаружения плагиата. Проведен обзор метрик для обнаружения плагиата в текстах программ. Выделены преимущества и недостатки для каждой метрики. Сравнение проведено по критериям: время, память, вероятность найти пару похожих программ, вероятность того, что найденная пара будет действительно похожа. После сравнения метрик: численных значений атрибутов, наибольшей общей подпоследовательности, расстояния Жаккара, расстояния Левенштейна и расстояния Колмогорова, между собой для реализации выбран расчет расстояния Левенштейна. На языке программирования Python реализован алгоритм расчета расстояния Левенштейна для списка токенов. Полученные результаты показывают, насколько тексты программ похожи между собой.
AB - Изучены такие виды представления данных для поиска плагиата в кодах программ, как текст без преобразований, n-граммы и токены. На языке программирования Python реализовано разбиение текстов программ из массива решений студентов на токены. Сформулированы требования к алгоритмам обнаружения плагиата. Проведен обзор метрик для обнаружения плагиата в текстах программ. Выделены преимущества и недостатки для каждой метрики. Сравнение проведено по критериям: время, память, вероятность найти пару похожих программ, вероятность того, что найденная пара будет действительно похожа. После сравнения метрик: численных значений атрибутов, наибольшей общей подпоследовательности, расстояния Жаккара, расстояния Левенштейна и расстояния Колмогорова, между собой для реализации выбран расчет расстояния Левенштейна. На языке программирования Python реализован алгоритм расчета расстояния Левенштейна для списка токенов. Полученные результаты показывают, насколько тексты программ похожи между собой.
KW - плагиат
KW - метрики для обнаружения плагиата
KW - токен
KW - PLAGIARISM
KW - PLAGIARISM DETECTION METRICS
KW - Token
UR - https://www.elibrary.ru/item.asp?id=41382500
M3 - статья
VL - 6
SP - 61
EP - 66
JO - ИЗВЕСТИЯ САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО ЭЛЕКТРОТЕХНИЧЕСКОГО УНИВЕРСИТЕТА "ЛЭТИ"
JF - ИЗВЕСТИЯ САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО ЭЛЕКТРОТЕХНИЧЕСКОГО УНИВЕРСИТЕТА "ЛЭТИ"
SN - 2071-8985
ER -
ID: 52379413