Documents

В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов.
Original languageRussian
Title of host publicationРазвитие науки и практики в глобально меняющемся мире в условиях рисков
Place of PublicationМосква
Pages152-159
StatePublished - 11 Nov 2025
EventXXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ
«Развитие науки и практики в глобально меняющемся мире в условиях рисков»
- Москва, Russian Federation
Duration: 11 Nov 2025 → …

Conference

ConferenceXXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ
«Развитие науки и практики в глобально меняющемся мире в условиях рисков»
Country/TerritoryRussian Federation
CityМосква
Period11/11/25 → …

ID: 144714669