¿A partir de qué volumen de tokens conviene invertir en infraestructura on-premise?

Según el reporte TCO 2026 de Lenovo , para cargas de trabajo con alta utilización sostenida (más del 20 % de uso continuo), la infraestructura on-premise alcanza su punto de equilibrio en menos de cuatro meses. Un análisis publicado en arXiv en 2025 indica que el umbral de viabilidad económica real se sitúa alrededor de 50 millones de tokens por mes para modelos de tamaño mediano.

¿Qué es la paradoja de Jevons aplicada a la IA?

La paradoja de Jevons describe el fenómeno por el cual la caída del costo unitario de un recurso provoca un aumento tan fuerte del consumo total que anula el ahorro esperado. Aplicada a la IA: la caída del costo por millón de tokens ( más del 98 % en dos años ) vino acompañada de una multiplicación de los usos (flujos agentivos, arquitecturas RAG, agentes permanentes), hasta el punto de que el costo total aumentó a pesar de la caída del costo unitario.

¿Qué es una arquitectura agnóstica al modelo y por qué priorizarla?

Una arquitectura agnóstica al modelo permite sustituir un modelo de lenguaje por otro sin rediseño aplicativo, abstrayendo la capa de inferencia. Preserva las opciones de migración si los precios de los proveedores cambian o si una infraestructura on-premise se vuelve más conveniente. Es una decisión que debe tomarse en el momento del diseño inicial.

Infraestructura IA en la empresa: la paradoja de los tokens baratos

En abril pasado, trabajaba en el avión. Once horas de vuelo, un modelo de lenguaje local en mi MacBook. El modelo se llamaba Llama 3.2 3B. Enviaba preguntas sobre redes bayesianas (mi investigación doctoral aborda la causalidad computacional aplicada al razonamiento jurídico) y el modelo generaba texto con una precisión deplorable. Le preguntaba si el grupo sanguíneo de un hijo es condicionalmente independiente del de sus abuelos cuando se conoce el de sus padres, que es una pregunta trivial en inferencia causal (la condición de Markov). Respuesta del modelo: no. Enviaba una argumentación para mostrar por qué era sí. El modelo generaba un asentimiento. Reformulaba su propio error como objeción. Volvía a la posición inicial. Observar a un modelo oscilar entre dos respuestas contradictorias según la presión conversacional del momento tiene algo bastante cautivador sin que logre precisar por qué. Me preguntaba entonces: ¿qué infraestructura debería implementar para tener un modelo realmente confiable en local?

Lo que se pensaba en enero

La pregunta sobre la infraestructura IA en la empresa parecía relativamente sencilla a principios de 2025. La línea divisoria era la siguiente: si la organización tenía una obligación legal de soberanía de datos (sector financiero regulado, defensa, salud bajo HIPAA o equivalente), el despliegue local o en nube privada era obligatorio. En todos los demás casos, las APIs comerciales de OpenAI, Anthropic o Google representaban la opción racional: mejores modelos, costo marginal bajo, cero infraestructura que mantener.

Esta posición descansaba en una hipótesis implícita: el token costaba poco, y su costo seguiría bajando. Era defendible, aunque ya en esa fecha personas como León Palafox hacían sonar la alarma: el token barato no iba a durar.

La paradoja de Jevons aplicada a la inferencia

Entre principios de 2024 y principios de 2026, el costo de la inteligencia artificial por millón de tokens cayó más del 98 %. Una llamada a GPT-4 costaba alrededor de 60 dólares por millón de tokens en salida al inicio de ese período; modelos de desempeño comparable se negocian hoy entre 0,10 y 0,75 dólares. La gran deflación de los tokens ocurrió. Y sin embargo, según los datos publicados por Gartner en enero de 2026, el gasto mundial en software de infraestructura IA casi se cuadruplicó en el mismo período, pasando de 60 a 230 mil millones de dólares.

Es la paradoja de Jevons aplicada a la inferencia: cuando el costo unitario se desploma, el consumo explota hasta anular el ahorro. La razón es estructural. Los flujos de trabajo agentivos (cadenas de agentes IA que se llaman entre sí para completar una tarea) pueden desencadenar entre algunas y una veintena de llamadas LLM por tarea de usuario, según la complejidad. Las arquitecturas RAG, que permiten a un modelo consultar una base documental antes de responder, inflan las ventanas de contexto, a veces por un factor de cinco a nueve según el volumen de documentos recuperados. Los agentes de monitoreo permanente consumen cómputo las veinticuatro horas. Goldman Sachs Research proyecta que el consumo mundial de tokens se multiplicará por veinticuatro de aquí a 2030, para alcanzar 120 cuatrillones de tokens por mes. Bueno, es una proyección, vale lo que vale, pero ilustra la tendencia.

En fin, es la fiesta de los tokens. Algunos listos lo han convertido incluso en argumento de reclutamiento: Jensen Huang, CEO de Nvidia, declaraba en marzo de 2026 que estaría «profundamente alarmado» si sus ingenieros de 500 000 dólares no consumieran al menos 250 000 dólares en tokens al año.

Los ejemplos que cambiaron la conversación

Uber desplegó Claude Code entre sus 5 000 ingenieros en diciembre de 2025. En abril de 2026, el CTO Praveen Neppalli Naga confirmaba, en un reportaje publicado por The Information, que la empresa había agotado la totalidad de su presupuesto IA anual en cuatro meses. La adopción había pasado del 32 % al 84 % de los equipos de ingeniería. El costo mensual por ingeniero variaba entre 500 y 2 000 dólares según la intensidad de uso. Naga describió la situación como un regreso a cero en la planificación presupuestaria.

Meme Batman abofeteando a Robin: los tokens baratos no reducen el presupuesto IA

Microsoft, pocas semanas después, anunciaba la cancelación de sus licencias internas de Claude Code en su división Experiences and Devices (Windows, Microsoft 365, Surface), a favor de GitHub Copilot CLI. La fecha elegida para la transición, el 30 de junio de 2026, corresponde exactamente al cierre del ejercicio fiscal de Microsoft.

En el sector salud, una empresa no identificada consumió un billón de tokens en seis meses, generando más de seis millones de dólares en costos no planificados antes de que el equipo financiero entendiera qué los producía. El término «tokenmaxxing» entró en el vocabulario de los CIOs.

La mecánica del descontrol

Cada llamada a una API de modelo de lenguaje es sin estado: el modelo no tiene memoria de la llamada anterior. Un agente que completa una tarea en veinte pasos debe enviar, en cada paso, la totalidad del historial de conversación hasta ese punto. En el paso veinte, si cada paso implicó la lectura de archivos o documentos, la ventana de contexto en entrada puede superar cincuenta mil tokens. Al precio de Claude Sonnet 4.6 (3 dólares por millón de tokens en entrada), un solo paso tardío de un bucle agente cuesta 0,15 dólares. Multiplicado por cincuenta pasos, por cincuenta tareas por desarrollador por día, por veinte desarrolladores, en veintidós días hábiles: 110 000 dólares al mes para un equipo de veinte personas.

El modelo tarifario de las APIs comerciales sigue una lógica de contador: cada token entrante y saliente se factura. La suscripción SaaS clásica a precio fijo por usuario sólo aplica a las interfaces de consumo masivo (y aun así, con límites de tokens por usuario). En cuanto se pasa a la API (es decir, en cuanto se construye algo), se entra en una economía de consumo variable, con una dispersión de más de 600x entre el modelo más barato y los modelos de razonamiento frontier más costosos.

El suelo que cede y revela el subsidio oculto

OpenAI proyecta perder 14 000 millones de dólares en 2026, con ingresos anualizados que superaban 20 000 millones a finales de 2025. Anthropic, cuyos ingresos alcanzaron 45 000 millones de dólares anualizados en mayo de 2026, postergó su objetivo de flujo de caja positivo a 2028, después de haberlo fijado inicialmente en 2027. Las dos empresas, junto con sus competidores, facturan la inferencia por debajo de su costo real de producción. El objetivo es capturar cuota de mercado durante la fase de adopción. Los mercados financieros financian la brecha.

Una empresa que construye sus procesos de negocio sobre APIs cuyo precio actual está subsidiado por capital de riesgo construye sobre terreno inestable. Cuando las valoraciones imponen disciplina, los precios suben. El riesgo de captura está documentado en las proyecciones financieras de estas empresas. Y a nadie parece importarle. Curioso, ¿no?

Lo que dicen los análisis de costo total de propiedad

La edición 2026 del reporte Lenovo sobre TCO de IA generativa, basada en una comparación con instancias equivalentes en AWS y GCP, establece que para cargas de trabajo con alta utilización sostenida (más del 20 % de uso continuo), la infraestructura on-premise alcanza su punto de equilibrio en menos de cuatro meses. La ventaja de costo por millón de tokens llega a 8x respecto al cloud IaaS y hasta 18x respecto a las APIs Model-as-a-Service frontier.

Un análisis publicado en arXiv en noviembre de 2025 afina este resultado: para modelos pequeños, el breakeven se sitúa en pocos meses; para modelos medianos, alrededor de dos años; para modelos grandes, cinco años. Lo que hace que el despliegue local sea económicamente justificable principalmente para organizaciones que procesan más de cincuenta millones de tokens al mes, o sujetas a obligaciones estrictas de residencia de datos. Deloitte fija el umbral de viabilidad a partir del momento en que los costos on-premise alcanzan el 60 a 70 % del equivalente cloud.

La variable decisiva no es el número de empleados sino el volumen de tokens generado por las automatizaciones. Una organización de cincuenta personas con flujos agentivos intensivos puede superar ese umbral antes que una de quinientas personas con uso conversacional ligero. Eso no significa que una tenga razón o sea rentable y la otra esté equivocada y no lo sea. Son simplemente los datos del problema matemático.

La revisión necesaria

La posición inicial (APIs comerciales salvo obligación legal) sigue siendo defendible para los usos conversacionales ligeros y poco agentivos. Merece revisión en cuanto la organización despliega o planea desplegar agentes autónomos, pipelines RAG en producción, o cualquier flujo que genere llamadas LLM en segundo plano sin interacción directa del usuario.

Para estos usos, un análisis TCO (costo total de propiedad) a tres años debe preceder la elección de infraestructura, según dos variables: el crecimiento esperado del volumen de tokens, y el riesgo de repricing por parte de los proveedores una vez terminada la fase de subsidio.

La arquitectura agnóstica al modelo (es decir, construir de forma que se pueda sustituir un modelo por otro sin rediseño aplicativo) es la decisión de ingeniería a diseñar hoy, independientemente de la elección de infraestructura. Preserva las opciones de migración si los precios se mueven. ¿Ya lo hicieron? Si no, quizás vale la pena considerarlo.

Lo que esto cambia para la estrategia IA generativa

Cuando intervengo en organizaciones sobre su estrategia IA generativa, la pregunta presupuestaria llega tarde en la conversación, frecuentemente después de que las decisiones de arquitectura ya se tomaron. Es exactamente al revés de lo que debería ser.

La secuencia correcta: identificar primero los casos de uso de alto volumen transaccional, modelar el volumen de tokens que generan a doce y treinta y seis meses, y luego elegir la infraestructura.

En mi MacBook, uso ahora DeepSeek-R1-Distill-Qwen-7B, un modelo de 7 mil millones de parámetros, cuantizado, que corre en local sin conexión. Tarda tres minutos en responder una pregunta compleja sobre causalidad. Generalmente da la respuesta correcta desde la primera vez y no cambia de posición cuando se le contradice sin argumento. La lentitud es el precio de la soberanía sobre el razonamiento. En el contexto del análisis estratégico, quizás sea un precio aceptable. Aun así, primero hay que haber definido la tarea a resolver.