En 2024 aprendimos a vigilar la factura de la nube. En 2026 el problema cambió de naturaleza: ya no controlamos servidores que consumen de forma predecible, sino agentes de IA que razonan, deciden y llaman modelos una y otra vez para resolver una sola tarea. Un agente que parecía barato en la demostración puede multiplicar su costo por veinte cuando enfrenta un caso real, porque cada paso de razonamiento, cada herramienta invocada y cada reintento se convierte en tokens facturados. Cuando esa dinámica se replica entre cientos de usuarios, el gasto deja de ser una línea técnica y se vuelve un punto de la agenda de junta directiva.
En corto: Los agentes de IA disparan costos difíciles de predecir porque llaman a los modelos muchas veces por tarea y usan herramientas de forma autónoma. FinOps para la IA agéntica consiste en dar visibilidad del gasto por agente y por tarea, elegir el modelo adecuado en cada paso y poner límites antes de escalar. Sin ese gobierno, la cuenta crece más rápido que el valor.
Una llamada a un modelo de lenguaje tiene un costo razonablemente estimable: usted envía un texto, recibe una respuesta y paga por los tokens de entrada y salida. Un agente es otra cosa. No ejecuta una llamada, sino un bucle: piensa, decide, llama a una herramienta, lee el resultado, vuelve a pensar y repite hasta cumplir el objetivo. Cada vuelta de ese bucle es una nueva llamada al modelo, y el número de vueltas no se conoce de antemano.
Esto genera tres fuentes de gasto que el modelo tradicional de la nube no captura bien:
La mayoría de las organizaciones ve el gasto de IA como una sola cifra mensual del proveedor. Eso es insuficiente para gobernar agentes. La pregunta correcta no es "cuánto gastamos en IA", sino "qué agente, en qué tarea y para qué usuario generó ese gasto, y qué valor entregó a cambio".
Para responderla hace falta instrumentar el sistema con etiquetas de atribución desde el primer día:
Sin esta granularidad, cualquier intento de optimización es a ciegas. Con ella, aparecen los patrones: casi siempre un puñado de agentes o de tareas concentra la mayor parte del costo, y ahí es donde conviene actuar primero.
Una vez que hay visibilidad, las palancas de optimización son concretas y, en muchos casos, no exigen sacrificar calidad. Las que más impacto generan en nuestra experiencia son las siguientes.
No toda decisión de un agente requiere el modelo más grande y caro. Clasificar una intención, extraer un dato o decidir qué herramienta usar puede resolverse con un modelo pequeño y especializado (SLM), reservando los modelos de mayor capacidad solo para los pasos que de verdad exigen razonamiento profundo. Esta arquitectura escalonada, en la que cada paso usa el modelo proporcional a su dificultad, suele ser la mayor fuente de ahorro sin pérdida perceptible de calidad.
Gran parte de lo que un agente envía al modelo se repite: las mismas instrucciones de sistema, las mismas descripciones de herramientas, el mismo conocimiento de fondo. El almacenamiento en caché de esos componentes evita pagar por reprocesarlos en cada llamada. A ello se suma cachear respuestas a preguntas frecuentes, de modo que el agente no vuelva a razonar desde cero un caso ya resuelto.
Un agente sin techo es un riesgo financiero. Conviene fijar límites explícitos: número máximo de pasos por tarea, tope de tokens por sesión, presupuesto por usuario o por flujo, y mecanismos que detengan un agente atrapado en un bucle. Estos límites no solo contienen el costo, también previenen comportamientos degradados que arruinan la experiencia.
Muchos costos se eliminan antes de elegir un modelo. Acortar los prompts, podar el historial irrelevante, darle al agente solo las herramientas que necesita y estructurar la tarea para que llegue a la respuesta en menos pasos reduce el gasto de raíz. Un agente bien diseñado es, casi siempre, un agente más barato.
Sería un error reducir todo esto a apagar gastos. El objetivo de FinOps para la IA agéntica es que cada peso invertido en agentes se traduzca en valor medible y que las decisiones sobre IA se tomen con datos, no con sustos en la factura. Eso implica una colaboración constante entre tres áreas que antes rara vez hablaban: ingeniería, finanzas y el negocio.
Este gobierno se apoya en una base de nube bien gestionada. La disciplina de costos que la organización construyó en su infraestructura cloud es el punto de partida natural para extender FinOps al gasto de IA, y la adopción de agentes funciona mejor cuando se inserta en una estrategia AI-first deliberada y no en iniciativas dispersas.
Porque un agente no ejecuta un número fijo de llamadas. Resuelve cada tarea con un bucle de razonamiento cuya longitud depende de la complejidad del caso, del contexto acumulado y de los reintentos. Dos peticiones similares pueden costar muy distinto, y por eso el costo se estima mejor por tarea que por llamada aislada.
No necesariamente. La clave es asignar el modelo adecuado a cada paso: un modelo pequeño y especializado basta para tareas de clasificación, enrutamiento o extracción, mientras los modelos grandes se reservan para el razonamiento complejo. Bien aplicada, esta arquitectura escalonada reduce costos sin que el usuario perciba pérdida de calidad.
Por la atribución. Antes de optimizar conviene etiquetar el gasto por agente, por tarea y por modelo para descubrir dónde se concentra realmente el costo. Casi siempre unos pocos agentes o flujos explican la mayor parte de la factura, y ahí están las primeras y mayores oportunidades.
Comparte los principios de visibilidad, atribución y responsabilidad, pero añade una dimensión nueva: el costo variable y no determinista de cada tarea agéntica, junto a palancas propias como la caché de contexto, el enrutamiento entre modelos y los límites de pasos. Es una extensión del FinOps tradicional, no un reemplazo.
El gasto en agentes de IA dejó de ser un detalle de ingeniería para convertirse en una conversación de dirección. La buena noticia es que el control empieza con un ejercicio acotado: instrumentar la visibilidad por agente y por tarea, identificar dónde se concentra el costo y aplicar las primeras palancas de optimización. A partir de ahí, el gasto deja de ser una sorpresa y pasa a ser una decisión. Si su organización está escalando agentes y quiere que cada peso invertido en IA se traduzca en valor medible, en SUMāTO podemos ayudarle a construir ese gobierno. Hablemos sobre su estrategia de FinOps para la IA agéntica.