Multi-threshold token-based code clone detection

Yaroslav Golubev, Viktor Poletansky, Nikita Povarov, Timofey Bryksin

Результат исследований: Публикации в книгах, отчётах, сборниках, трудах конференцийстатья в сборнике материалов конференциинаучнаярецензирование

Аннотация

Clone detection plays an important role in software engineering. Finding clones within a single project introduces possible refactoring opportunities, and between different projects it could be used for detecting code reuse or possible licensing violations.In this paper, we propose a modification to bag-of-tokens based clone detection that allows detecting more clone pairs of greater diversity without losing precision by implementing a multi-threshold search, i.e. conducting the search several times, aimed at different groups of clones. To combat the increase in operation time that this approach brings about, we propose an optimization that allows to significantly decrease the overlap in detected clones between the searches.We evaluate the method for two different popular clone detection tools on two datasets of different sizes. The implementation of the technique allows to increase the number of detected clones by 40.5-56.6% for different datasets. BigCloneBench evaluation also shows that the recall of detecting Strongly Type-3 clones increases from 37.5% to 59.6%.

Язык оригиналаанглийский
Название основной публикацииProceedings - 2021 IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021
ИздательInstitute of Electrical and Electronics Engineers Inc.
Страницы496-500
Число страниц5
ISBN (электронное издание)9781728196305
DOI
СостояниеОпубликовано - мар 2021
Событие28th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021 - Virtual, Honolulu, Соединенные Штаты Америки
Продолжительность: 9 мар 202112 мар 2021

Серия публикаций

НазваниеProceedings - 2021 IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021

конференция

конференция28th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021
Страна/TерриторияСоединенные Штаты Америки
ГородVirtual, Honolulu
Период9/03/2112/03/21

Предметные области Scopus

  • Искусственный интеллект
  • Программный продукт
  • Безопасность, риски, качество и надежность

Fingerprint

Подробные сведения о темах исследования «Multi-threshold token-based code clone detection». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать