La carrera por abaratar la IA: así intentan las empresas bajar el coste de los ‘tokens’

Debido a que las herramientas y servicios de IA generativa se han vuelto tan omnipresentes (y populares), los costes de utilizarlos se están disparando, lo que genera un apetito insaciable por los tokens. Estos representan una forma común de medir y fijar el precio del uso de la IA. Al igual que las letras y las palabras en inglés, los modelos de lenguaje de gran tamaño (LLM) entienden una frase o consulta dividiendo las palabras en tokens.

Con la explosión de la IA ya en marcha, los tokens son ahora “las unidades fundamentales de datos que procesan nuestros modelos, muchas de las cuales representan un problema que se está resolviendo”, según el CEO de Google, Sundar Pichai. (Google, por cierto, procesa unos 3,2 cuatrillones de tokens al mes).

Pero a medida que el coste de todos esos tokens se acumula, los ejecutivos de negocio y de TI buscan formas de reducir gastos sin perder productividad. El uso descontrolado de tokens ya ha llevado a una empresa a enfrentarse a una factura inesperada de 500 millones de dólares en IA.

Existen varias formas de reducir el precio de la IA a nivel de modelo, infraestructura, hardware (silicio) y negocio. A continuación, algunas de las vías para conseguir ese ahorro.

Cambiar a modelos más baratos

Una forma de ahorrar costes es redirigir el trabajo de IA hacia modelos más económicos, según Pichai. En Google, ese sería Gemini 3.5 Flash, que ofrece “capacidades de nivel frontera a menos de la mitad de precio que modelos comparables”. “Si las empresas utilizan una combinación de [Gemini 3.5] Flash y otros modelos de frontera, podrían ahorrar mucho dinero”, según el directivo.

Estos modelos generan tokens más baratos y proporcionan un razonamiento suficiente para muchos casos, aunque no tan potente como el de los modelos principales. “A veces hay un exceso de uso de los LLM”, afirma Deepak Seth, analista de Gartner. “No siempre necesito un modelo entrenado con Dickens, Shakespeare o Harry Potter”.

No olvidar el papel del hardware y el software

La crisis de los tokens no es nueva, según Dheeraj Pandey, CEO de DevRev, quien compara la situación actual con las disrupciones provocadas por el cloud y la virtualización en su momento. “Primero dejamos que el caos se impusiera y después tuvimos que controlarlo”, afirma.

La solución, en su opinión, pasa por optimizar sistemas: “Cualquier cosa en sistemas se puede resolver con caché e indirecta”. DevRev, por ejemplo, está construyendo una capa de memoria entre los agentes de IA y las fuentes de datos principales (como Salesforce o ERP), lo que reduce el consumo de tokens y hace más eficiente el movimiento de datos. Enviar agentes directamente contra sistemas como ServiceNow o Salesforce “consume muchos más tokens, es menos preciso y menos seguro”, añade.

Otra alternativa es la que utiliza NetBrain, que aplica computación tradicional para mapear redes y solo envía información clave a los modelos, donde la IA aporta más valor. “Así no tienes que gastar todos los tokens”, explica su CTO.

Centrarse en la eficiencia de los prompts

La empresa ManpowerGroup ha comprobado que la eficiencia en los prompts puede reducir significativamente el consumo de tokens. Por ejemplo, su herramienta interna de mercado laboral necesitaba inicialmente diez preguntas adicionales para afinar una consulta. Un año después, esa cifra ha bajado a cuatro gracias a un uso más eficiente de los prompts. “Están usando menos tokens y son más eficientes”, explica Max Leaming.

Apostar por soluciones locales

El nuevo hardware de IA que genera tokens a nivel local podría aliviar parte de la presión de costes. En el evento GTC Taipei, Nvidia y Microsoft presentaron RTX Spark, un PC de escritorio con IA agentiva capaz de ejecutar agentes y modelos de 120.000 millones de parámetros de forma local en Windows. El objetivo es ofrecer “inteligencia sin medición por uso” en cada escritorio, según Satya Nadella.

Algunas empresas también están reduciendo costes cloud desplegando hardware propio en centros de datos, una tendencia que gana peso en el contexto de la IA soberana y las tensiones geopolíticas.

Utilizar ingenieros desplegados en cliente

Reducir costes de tokens puede recaer en equipos especializados de ingeniería, que diseñan sistemas con requisitos de coste en mente. “Espero que estos equipos puedan diseñar sistemas que tengan en cuenta esos costes, ya sea usando modelos distintos o casos de uso más eficientes”, explica Taimur Rashid, de AWS.

Cambiar la métrica: de tokens a resultados

A medio plazo, la forma de medir el éxito de la IA podría evolucionar. Según Gartner, el sector podría pasar de un modelo basado en tokens a otro basado en resultados (outcome-based), donde el valor no sean fragmentos de texto, sino los resultados obtenidos. “Algunas compañías ya se están moviendo hacia precios basados en resultados”, apunta Seth.

Read More from This Article: La carrera por abaratar la IA: así intentan las empresas bajar el coste de los ‘tokens’
Source: News