En avril dernier, je travaillais dans l’avion. Onze heures de vol, un modèle de langage local sur mon MacBook. Le modèle s’appelait Llama 3.2 3B. Je soumettais des questions sur les réseaux bayésiens (ma recherche doctorale porte sur la causalité computationnelle appliquée au raisonnement juridique) et le modèle générait des mots, avec une précision déplorable. Je demandais si le type sanguin d’un enfant est conditionnellement indépendant de celui de ses grands-parents lorsqu’on connaît celui des parents, ce qui est une question triviale en inférence causale (la condition de Markov). Réponse du modèle : non. J’envoyais une argumentation pour montrer pourquoi c’était oui. Le modèle générait un acquiescement. Je reformulais sa propre erreur comme une objection. Il revenait à la position initiale. Regarder un modèle osciller entre deux réponses contradictoires selon la pression conversationnelle du moment a quelque chose d’assez captivant sans que j’arrive à savoir pourquoi. Je me demandais alors : quelle infrastructure devrais-je implémenter pour avoir vraiment un modèle fiable localement ?
Ce que l’on pensait en janvier
La question de l’infrastructure IA en entreprise semblait relativement simple au début de 2025. La ligne de partage s’établissait ainsi : si votre organisation avait une obligation légale de souveraineté des données (secteur financier régulé, défense, santé sous HIPAA ou équivalent), le déploiement local ou sur cloud privé s’imposait. Dans tous les autres cas, les APIs commerciales d’OpenAI, d’Anthropic ou de Google représentaient le choix rationnel : meilleurs modèles, coût marginal faible, zéro infrastructure à maintenir.
Cette position reposait sur une hypothèse implicite : le token coûtait peu, et son coût allait continuer à baisser. Elle était défendable, bien que déjà à cette date des personnes comme León Palafox sonnaient l’alarme : le token à bas prix n’allait pas durer.
Le paradoxe de Jevons appliqué à l’inférence
Entre début 2024 et début 2026, le coût de l’intelligence artificielle par million de tokens a chuté de plus de 98 %. Un appel GPT-4 coûtait environ 60 dollars par million de tokens en sortie au début de cette période ; des modèles de performance comparable se négocient aujourd’hui entre 0,10 et 0,75 dollar. La grande déflation des tokens a eu lieu. Et pourtant, selon les données publiées par Gartner en janvier 2026, les dépenses mondiales en logiciels d’infrastructure IA ont presque quadruplé sur la même période, passant de 60 à 230 milliards de dollars.
C’est le paradoxe de Jevons appliqué à l’inférence : quand le coût unitaire s’effondre, la consommation explose au point d’annuler l’économie. La raison est structurelle. Les workflows agentiques (chaînes d’agents IA qui s’appellent mutuellement pour accomplir une tâche) peuvent déclencher entre quelques appels et une vingtaine d’appels LLM par tâche utilisateur, selon la complexité. Les architectures RAG, qui permettent à un modèle d’interroger une base documentaire avant de répondre, gonflent les fenêtres de contexte, parfois d’un facteur cinq à neuf selon le volume de documents récupérés. Les agents de monitoring permanents consomment du compute vingt-quatre heures sur vingt-quatre. Goldman Sachs Research projette que la consommation mondiale de tokens sera multipliée par vingt-quatre d’ici 2030, pour atteindre 120 quadrillions de tokens par mois. Bon, c’est une projection, ça vaut ce que ça vaut, mais ça illustre la tendance.
Bref, c’est la fête des tokens. Certains petits malins en ont même fait un argument de recrutement : Jensen Huang, CEO de Nvidia, déclarait en mars 2026 qu’il serait « profondément alarmé » si ses ingénieurs à 500 000 dollars n’en consommaient pas au moins 250 000 dollars en tokens par an.
Les exemples qui ont changé la conversation
Uber a déployé Claude Code auprès de ses 5 000 ingénieurs en décembre 2025. En avril 2026, le CTO Praveen Neppalli Naga confirmait, dans un reportage publié par The Information, que l’entreprise avait épuisé la totalité de son budget IA annuel en quatre mois. L’adoption était passée de 32 % à 84 % des équipes d’ingénierie. Le coût mensuel par ingénieur variait entre 500 et 2 000 dollars selon l’intensité d’usage. Naga a décrit la situation comme un retour à la case départ sur la planification budgétaire.

Microsoft, quelques semaines plus tard, annonçait la résiliation de ses licences internes Claude Code dans sa division Experiences and Devices (Windows, Microsoft 365, Surface), au profit de GitHub Copilot CLI. La date retenue pour la transition, le 30 juin 2026, correspond précisément à la clôture de l’exercice fiscal de Microsoft.
Dans le secteur de la santé, une entreprise non identifiée a consommé mille milliards de tokens sur six mois, générant plus de six millions de dollars de coûts non planifiés avant que l’équipe financière comprenne ce qui les produisait. Le terme « tokenmaxxing » est entré dans le vocabulaire des DSI.
La mécanique du dérapage non contrôlé
Chaque appel à une API de modèle de langage est sans état : le modèle n’a aucune mémoire de l’appel précédent. Un agent qui accomplit une tâche en vingt étapes doit donc envoyer, à chaque étape, l’intégralité de l’historique de la conversation jusqu’à ce point. À l’étape vingt, si chaque étape a impliqué la lecture de fichiers ou de documents, la fenêtre de contexte en entrée peut dépasser cinquante mille tokens. Au tarif de Claude Sonnet 4.6 (3 dollars par million de tokens en entrée), une seule étape tardive d’une boucle agent coûte 0,15 dollar. Multipliée par cinquante étapes, par cinquante tâches par développeur par jour, par vingt développeurs, sur vingt-deux jours ouvrés : 110 000 dollars par mois pour une équipe de vingt personnes.
Le modèle tarifaire des APIs commerciales reprend une logique de compteur : chaque token entrant et sortant est facturé. L’abonnement SaaS classique à prix fixe par siège ne s’applique qu’aux interfaces grand public (et encore, avec des limites de tokens par siège). Dès que l’on passe à l’API, c’est-à-dire dès que l’on construit quelque chose, on entre dans une économie de consommation variable, avec une dispersion de plus de 600x entre le modèle le moins cher et les modèles de raisonnement frontier les plus coûteux.
Le sol qui se dérobe et dévoile la subvention cachée
OpenAI projette de perdre 14 milliards de dollars en 2026, pour des revenus annualisés qui dépassaient 20 milliards à fin 2025. Anthropic, dont les revenus ont atteint 45 milliards de dollars annualisés en mai 2026, a repoussé son objectif de cash-flow positif à 2028, après l’avoir initialement fixé à 2027. Les deux sociétés, avec l’ensemble de leurs concurrents, facturent l’inférence en dessous de leur coût réel de production. L’objectif est la captation de parts de marché pendant la phase d’adoption. Les marchés financiers financent l’écart.
Une entreprise qui construit ses processus métier sur des APIs dont le prix actuel est subventionné par le capital-risque construit sur un sol instable. Quand les valorisations imposent la discipline, les prix montent. Le risque de capture est donc documenté dans les projections financières de ces entreprises. Et tout le monde s’en fout. Dingue, non ?
Ce que disent les analyses de coût total de possession
L’édition 2026 du rapport Lenovo sur le TCO de l’IA générative, basée sur une comparaison avec les instances équivalentes chez AWS et GCP, établit que pour des charges de travail à haute utilisation soutenue (au-delà de 20 % d’utilisation continue) l’infrastructure on-premise atteint son seuil de rentabilité en moins de quatre mois. L’avantage de coût par million de tokens monte à 8x par rapport au cloud IaaS et jusqu’à 18x par rapport aux APIs Model-as-a-Service frontier.
Une analyse publiée sur arXiv en novembre 2025 affine ce résultat : pour les petits modèles, le breakeven se situe dans les quelques mois ; pour les modèles moyens, autour de deux ans ; pour les grands modèles, cinq ans. Ce qui rend le déploiement local économiquement justifié principalement pour des organisations traitant plus de cinquante millions de tokens par mois, ou soumises à des obligations strictes de résidence des données. Deloitte fixe le seuil de viabilité à partir du moment où les coûts on-premise atteignent 60 à 70 % de l’équivalent cloud.
La variable décisive n’est donc pas le nombre d’employés mais le volume de tokens généré par les automatisations. Une organisation de cinquante personnes avec des workflows agentiques intensifs peut franchir ce seuil avant une organisation de cinq cents personnes à usage conversationnel léger. Ça ne veut pas dire que l’une a raison ou est rentable et l’autre a tort et ne l’est pas. C’est juste les données du problème mathématique.
La révision nécessaire
La position initiale (APIs commerciales sauf obligation légale) reste défendable pour les usages conversationnels légers et peu agentiques. Elle mérite révision dès lors que l’organisation déploie ou envisage de déployer des agents autonomes, des pipelines RAG en production, ou tout workflow qui génère des appels LLM en arrière-plan sans interaction directe de l’utilisateur.
Pour ces usages, une analyse TCO (coût total de possession) sur trois ans doit précéder le choix d’infrastructure, selon deux variables : la croissance attendue du volume de tokens, et le risque de repricing par les fournisseurs une fois la phase de subvention terminée.
L’architecture agnostique au modèle, c’est-à-dire construire de sorte qu’on puisse substituer un modèle à un autre sans refonte applicative, est la décision d’ingénierie à designer aujourd’hui, indépendamment du choix d’infrastructure. Elle préserve les options de migration si les prix bougent. Vous l’avez fait ? Si non, ça vaut peut-être le coup.
Ce que cela change pour la stratégie IA générative
Quand j’interviens dans des organisations sur leur stratégie IA générative, la question budgétaire arrive tard dans la conversation, souvent après que les choix d’architecture ont déjà été faits. C’est l’inverse de ce qu’il faudrait.
La bonne séquence : identifier d’abord les cas d’usage à fort volume transactionnel, modéliser le volume de tokens qu’ils génèrent sur douze et trente-six mois, puis choisir l’infrastructure.
Sur mon MacBook, j’utilise maintenant DeepSeek-R1-Distill-Qwen-7B, un modèle de 7 milliards de paramètres, quantisé, qui tourne en local sans connexion. Il met trois minutes à répondre à une question complexe sur la causalité. Il donne généralement la bonne réponse du premier coup et ne change pas d’avis quand on le contredit sans argument. La lenteur est le prix de la souveraineté sur le raisonnement. Dans le contexte de l’analyse stratégique, c’est peut-être un prix acceptable. Encore faut-il avoir défini la tâche à résoudre.