Standard

Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. / Ерофеевский, Даниил Владимирович.

Развитие науки и практики в глобально меняющемся мире в условиях рисков. Москва, 2025. p. 152-159.

Research output: Chapter in Book/Report/Conference proceedingConference contributionResearchpeer-review

Harvard

Ерофеевский, ДВ 2025, Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. in Развитие науки и практики в глобально меняющемся мире в условиях рисков. Москва, pp. 152-159, XXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ
«Развитие науки и практики в глобально меняющемся мире в условиях рисков», Москва, Russian Federation, 11/11/25.

APA

Ерофеевский, Д. В. (2025). Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. In Развитие науки и практики в глобально меняющемся мире в условиях рисков (pp. 152-159).

Vancouver

Ерофеевский ДВ. Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. In Развитие науки и практики в глобально меняющемся мире в условиях рисков. Москва. 2025. p. 152-159

Author

Ерофеевский, Даниил Владимирович. / Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение. Развитие науки и практики в глобально меняющемся мире в условиях рисков. Москва, 2025. pp. 152-159

BibTeX

@inproceedings{4f454a16c4b149fba76f89eaaf34ac81,
title = "Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение",
abstract = "В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов. ",
author = "Ерофеевский, {Даниил Владимирович}",
year = "2025",
month = nov,
day = "11",
language = "русский",
pages = "152--159",
booktitle = "Развитие науки и практики в глобально меняющемся мире в условиях рисков",
note = "XXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ<br/>«Развитие науки и практики в глобально меняющемся мире в условиях рисков» ; Conference date: 11-11-2025",

}

RIS

TY - GEN

T1 - Пост-тренировочное квантование больших языковых моделей: алгоритмы, эффективность и применение

AU - Ерофеевский, Даниил Владимирович

PY - 2025/11/11

Y1 - 2025/11/11

N2 - В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов.

AB - В статье рассматриваются современные методы посттренировочного квантования (post-training quantization, PTQ) больших языковых моделей (LLM). Описаны принципы алгоритмов OPTQ (известного как GPTQ), AWQ, RPTQ и Qronos, а также вспомогательных подходов (например, SmoothQuant). Проведен анализ теоретических гарантий и практических результатов: отмечено, что OPTQ/GPTQ стал де-факто стандартом PTQ для LLM, а новые методы, такие как AWQ и RPTQ, учитывают неравнозначность весов и особенностей активаций. Приведено сравнение точности и эффективности на примерах моделей LLaMA, GPT, OPT, BLOOM и др.: например, GPTQ при 3–4-битном квантовании весов сохраняет близкую к FP16 точность, AWQ позволяет удерживать качество при агрессивном отборе важных весов, RPTQ впервые реализует 3-битное квантование активаций с незначительной потерей точности. В заключении обсуждаются перспективы дальнейшего развития PTQ и практические сценарии использования в условиях ограниченных ресурсов.

M3 - статья в сборнике материалов конференции

SP - 152

EP - 159

BT - Развитие науки и практики в глобально меняющемся мире в условиях рисков

CY - Москва

T2 - XXXXI МЕЖДУНАРОДНАЯ НАУЧНОПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ<br/>«Развитие науки и практики в глобально меняющемся мире в условиях рисков»

Y2 - 11 November 2025

ER -

ID: 144714669