La quantification vectorielle TurboQuant réduit l'utilisation de mémoire des LLM

La quantification vectorielle TurboQuant est la dernière initiative de Google Research visant à alléger la charge du cache KV lors de l’inférence des LLM. Au lieu de cibler les poids du modèle, la méthode s’attaque à la mémoire d’exécution, avec des annonces de compression du cache KV par 6, de quantification à 3 bits et de calculs d’attention plus rapides. Pour les ingénieurs, l’essentiel est simple : des contextes plus longs et des modèles plus lourds peuvent tenir dans le même budget matériel.

La quantification vectorielle TurboQuant est la dernière tentative de Google Research pour s’attaquer à l’un des goulets d’étranglement moins visibles mais bien réels de l’inférence des grands modèles de langage : le cache clé-valeur en croissance constante. L’idée, décrite dans un article de Google Research et soutenue par un préprint arXiv, ne vise pas à réduire les poids du modèle, mais à compresser la mémoire d’exécution utilisée pour stocker l’historique d’attention. Pour quiconque observe l’évolution plus large vers un matériel conscient des modèles, cela s’inscrit parfaitement dans les commentaires précédents d'Elektor sur le silicium natif à l'IA.

Résultats de la quantification vectorielle TurboQuant

Si vous tentez de traiter des séquences plus longues, de servir davantage d’utilisateurs ou de faire tenir des modèles plus performants sur le même accélérateur, la mémoire du cache KV devient vite un coût gênant. Google affirme que TurboQuant peut réduire la mémoire du cache KV d’au moins 6× sur des benchmarks exigeants, quantifier le cache à 3 bits sans entraînement ni ajustement, et offrir jusqu’à 8× d’accélération pour le calcul des logits d’attention sur des GPU H100 dans ses tests rapportés. C’est l’élément qui retient l’attention, mais la conclusion plus pratique est plus simple : la bande passante mémoire et la taille du cache sont désormais des contraintes de conception de premier plan pour l’inférence moderne, et non des problèmes secondaires.

Ce que change la quantification vectorielle TurboQuant

Le document décrit une méthode en deux étapes. D’abord, PolarQuant fait pivoter et restructure les données afin que la quantification scalaire fonctionne de manière inhabituelle sans le surcoût habituel.

Diagramme intitulé PolarQuant montrant les vecteurs d'entrée cartésiens originaux transformés en composants en forme polaire pour la quantification. — *Diagramme de transformation PolarQuant. Source : Google*

Ensuite, il y a QJL, une étape résiduelle à 1 bit destinée à éliminer le biais dans l’estimation du produit intérieur. En termes simples, le schéma vise à compresser le cache KV sans dégrader les calculs d’attention qui rendent le modèle utile au départ. Les auteurs rapportent une neutralité complète de qualité à 3,5 bits par canal et seulement une dégradation marginale à 2,5 bits par canal dans les expériences sur le cache KV, ce qui offre une lecture plus concrète du message de « perte nulle ».

La véritable question technique

La prochaine question n’est pas de savoir si les mathématiques sont intéressantes. Il s’agit de savoir si la quantification vectorielle TurboQuant s’intègre rapidement dans les piles d’inférence grand public pour produire un impact au-delà des articles, graphiques de benchmark et billets de blog. Le travail de Google sera présenté à l’ICLR 2026 plus tard ce mois-ci, tandis que les travaux connexes sur PolarQuant sont prévus pour l’AISTATS 2026. Si l’histoire de l’implémentation se révèle aussi nette que la théorie, cela pourrait devenir l’une de ces avancées d’infrastructure qui modifient discrètement ce que les développeurs peuvent exécuter localement, en périphérie, ou simplement sur le matériel qu’ils possèdent déjà.

Je m'abonne

Alerte de tag : Abonnez-vous au tag Embedded & AI et vous recevrez un e-mail dès qu’un nouvel article à ce sujet sera publié sur notre site web !

Au sujet de Brian Tristam Williams

Brian Tristam Williams est un créateur de contenu passionné par les ordinateurs et l'électronique depuis qu'il a reçu un « micro-ordinateur » à l'âge de 10 ans. Il a acheté son premier magazine Elektor à 16 ans et évolue depuis l'écosystème de l'électronique e... >>

Évaluez cet article

★ ★ ★ ★ ★