TurboQuant : l’algo de Google qui veut rassasier l’ogre de RAM qu’est l’IA

Le marché de la mémoire vive traverse une période complexe pour les particuliers. Depuis plusieurs mois, l’obsession des fabricants pour l’IA a provoqué une augmentation massive des tarifs des barrettes DDR5, les constructeurs préférant allouer leurs lignes de production aux puces haute performance pour serveurs. Cependant, une annonce technique de Google Research, baptisée TurboQuant, pourrait bien changer la donne en rendant l’IA beaucoup moins gourmande en matériel.

L’efficacité logicielle contre la force brute

Le principe de TurboQuant est d’une simplicité technique assez remarquable pour un résultat impressionnant. Pour fonctionner, les grands modèles de langage utilisent une zone mémoire appelée cache « Key-Value » (KV). Jusqu’à présent, cette zone consommait énormément de gigaoctets, obligeant les entreprises à acheter des quantités astronomiques de RAM. Google a développé un algorithme capable de compresser ces données à seulement 3 bits, contre 16 ou 32 habituellement.

Cette technologie permet de diviser par 6 l’utilisation de la mémoire sans perdre en précision dans les réponses de l’IA. En utilisant des méthodes mathématiques nommées PolarQuant et QJL, Google parvient même à accélérer les calculs jusqu’à huit fois sur certains processeurs graphiques. Pour le dire clairement, là où il fallait une infrastructure coûteuse et saturée de RAM, une configuration beaucoup plus modeste.

TurboQuant : un coup de frein sur la demande en HBM ?

Si TurboQuant tient ses promesses, les mêmes modèles d’IA pourront tourner avec environ six fois moins de mémoire pour l’inférence, tout en gagnant en vitesse. Pour un data center, cela veut dire plus de requêtes servies par GPU, ou moins de GPU et moins de mémoire à acheter pour un même service.

Les marchés financiers ont déjà réagi : plusieurs actions de fabricants de mémoire (Micron, Western Digital, SanDisk, Seagate, etc.) ont chuté juste après l’annonce, les investisseurs craignant que la demande en puces mémoire pour l’IA soit moins gigantesque que prévu.

Est‑ce que ça veut dire krach sur la RAM de nos PC ?

Il est tentant d’imaginer un grand « reset » : les IA consomment d’un coup beaucoup moins de mémoire, la demande retombe, les prix chutent, et tout le monde est content. La réalité risque d’être plus nuancée.

D’un côté, moins de mémoire par modèle peut effectivement réduire la pression sur la HBM et la DRAM serveur, donc calmer un peu la spéculation actuelle. De l’autre, si l’IA devient moins chère et plus rapide, on risque surtout de voir… encore plus d’IA partout, donc un usage global de mémoire qui continue de croître, même si chaque modèle individuel consomme moins.

Et pour le joueur ou le geek qui veut 64 Go de DDR5 ?

Soyons clairs : ton prochain kit DDR5 ne va pas passer de 700 à 150 euros du jour au lendemain juste parce que Google a publié un papier de recherche. TurboQuant doit encore être adopté massivement par les clouds, et éprouvé en production avant de réellement influencer la façon dont les géants de l’IA achètent leur mémoire.

Mais si, dans un ou deux ans, des algos comme TurboQuant deviennent la norme, la demande en HBM/DRAM pour l’inférence pourrait se stabiliser au lieu d’accélérer sans fin.

Dans ce cas, après avoir ignoré les besoins des joueurs et des utilisateurs quotidiens au profit du mirage de l’IA, les industriels de la mémoire pourraient être contraints de redescendre sur terre et de nous proposer des tarifs plus cohérents avec la réalité du marché domestique.

En conclusion, TurboQuant démontre que l’intelligence artificielle n’est pas forcément synonyme de débauche de composants. C’est une excellente nouvelle pour la technologie, et peut-être le début de la fin pour la dictature des prix de la RAM.