Research output: Chapter in Book/Report/Conference proceeding › Conference contribution › Research › peer-review
Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. / Ерофеевский, Даниил Владимирович.
Развитие науки и практики в глобально меняющемся мире в условиях рисков. Москва, 2025. p. 152-159.Research output: Chapter in Book/Report/Conference proceeding › Conference contribution › Research › peer-review
}
TY - GEN
T1 - Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение
AU - Ерофеевский, Даниил Владимирович
PY - 2025/11/11
Y1 - 2025/11/11
N2 - В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов.
AB - В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов.
M3 - статья в сборнике материалов конференции
SP - 152
EP - 159
BT - Развитие науки и практики в глобально меняющемся мире в условиях рисков
CY - Москва
T2 - XXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ<br/>«Развитие науки и практики в глобально меняющемся мире в условиях рисков»
Y2 - 11 November 2025
ER -
ID: 144714669