El auge de la inteligencia artificial (IA) no tiene fin a la vista. Cada semana, vemos nuevos avances en la tecnología, nuevos casos de uso y nuevos temores de que la IA abrume a la humanidad o, al menos, a algunas industrias. Los expertos predicen reajustes radicales y la aparición de nuevas superpotencias industriales, similares a lo que vimos durante la transición de las puntocom.
Algunas empresas, con su propia supervivencia en juego, están dispuestas a gastar cualquier cantidad de dinero para seguir siendo relevantes. Otras sólo quieren adelantarse a sus competidores más lentos, o simplemente aprovechar los aumentos de productividad y las nuevas oportunidades de negocio que se espera que surjan como resultado de la IA generativa. Pero por muy importante que sea o no la IA para una empresa, no tiene sentido malgastar el dinero. La IA de nueva generación ofrece muchas oportunidades de gastar demasiado y obtener muy poco a cambio cuando, en cambio, las empresas pueden utilizar sus presupuestos de IA generativa de forma más estratégica, permitiéndoles obtener más beneficios de las inversiones y adelantarse a sus competidores. La clave para llegar más lejos y más rápido gastando menos dinero es ser más reflexivo y cuidadoso con los primeros pasos.
Según los últimos datos de McKinsey, el 65% de las empresas afirman estar utilizando IA generativa con regularidad, casi el doble que 10 meses antes, y tres cuartas partes predicen que la IA generativa provocará cambios significativos o disruptivos en sus sectores en los próximos años.
Según las previsiones de IDC, el gasto en IA generativa se duplicará en 2024 con respecto a 2023 y alcanzará los 151.000 millones de dólares en 2027. Pero según una encuesta realizada por Lucidworks a 2.500 líderes empresariales a mediados de junio, el ritmo de crecimiento del gasto en IA generativa se está estabilizando, impulsado en gran parte por la preocupación por los costes. El año pasado, sólo el 3% de los encuestados afirmaron que el coste de implantación de la IA generativa era una preocupación. Este año, el 46% de los encuestados dijo que lo era, un aumento de 14 veces. Una encuesta similar realizada por Gartner en mayo mostraba que estimar y demostrar el valor empresarial era la principal barrera para la adopción de la IA generativa. Las principales razones por las que estos costes pueden aumentar rápidamente cuando una empresa empieza a desplegar la IA a gran escala son los costes de los tókenes, los costes adicionales inesperados y la dispersión de la IA.
Costes de los tókenes
Una empresa que ha visto todo esto es la consultora en la nube DoiT, tanto en sus propios proyectos internos como en los proyectos en los que trabaja para sus clientes. Los tókenes, o trozos de palabras que forman la base de la mayoría de las estructuras de precios de la IA generativa, son una métrica extraña.
“Los tékenes no son una unidad de valor”, afirma Eric Moakley, responsable de gestión de productos de la empresa. “Así que la forma de valorar algo y la forma de pagarlo son completamente diferentes”.
Con los precios basados en tókenes, los clientes pagan a los proveedores de IA en función de la longitud de las preguntas que formulan y la longitud de las respuestas que obtienen de la IA a cambio. Para obtener respuestas más precisas, las empresas alargan las preguntas, o prompts, incorporando instrucciones específicas sobre cómo deben formarse las respuestas, proporcionando información general sobre la empresa e información de bases de datos internas. Algunas respuestas requieren preguntas de seguimiento o comprobación de los hechos. Y todo suma. Gastar fichas es un poco como jugar en un casino, dice Moakley. “De repente tienes fichas, y tienes que pensar constantemente en relacionarlo con el rendimiento que obtienes”, dice.
Por eso, para controlar los costes operativos, DoiT es estratégico en sus inversiones y gastos en IA generativa, afirma. “Hacemos un seguimiento”, afirma. Por ejemplo, uno de los mejores casos de uso que ha encontrado es también uno de los más baratos. Cuando los ingenieros de la empresa ponen en marcha un servidor de AWS y llega la factura, está escrita en un lenguaje de SKU, tarifas por hora, descuentos y créditos. Si hay una anomalía en los costes, puede ser difícil averiguar qué significa una partida específica. Así que DoiT añadió funcionalidad, pidiendo a un modelo IA generativa que explicara estos términos.
“Es un caso de uso muy limitado”, dice Moakley. “Es sólo un botón junto a la información. No se le pregunta ni se ajusta. Y nos pareció muy valioso”. Sin duda, se trata de una funcionalidad que la propia AWS podría proporcionar con el tiempo, pero DoiT estaba experimentando con la IA generativa de todos modos, y este era un proyecto muy sencillo.
“Es algo fácil de hacer para un LLM”, dice. “Obtenemos la información adecuada en el momento oportuno, y pudimos construirlo rápidamente gracias a la IA. La IA generativa ya estaba entrenada con los datos que necesitábamos para ello porque también estábamos trabajando en otras cosas”.
Y la funcionalidad sólo requirió un par de horas de tiempo de desarrollo. “Simplemente nos preguntamos: ¿qué dificultad tendría añadir las vistas que estaban viendo de todos modos?”, añade. Pero después vino la parte de la gobernanza. ¿Quién hacía la solicitud? ¿A qué servicio llaman? ¿Cuántos tókenes se necesitan y cómo se traducen en dólares? ¿Y merece la pena construirlo o es más fácil esperar a que el proveedor añada la funcionalidad? “Creo que la ventaja del tiempo de comercialización suele merecer la pena, desde el punto de vista del producto”, afirma Moakley.
Pero la empresa también ha puesto fin a varias inversiones en IA generativa porque los indicadores de rendimiento no estaban ahí, afirma. “Los clientes no respondían”, afirma. “No nos estaba dando el impulso que queríamos”.
DoiT también optimiza sus interacciones LLM para controlar el número de tókenes. “Tenemos cuidado de podar los datos y las entradas”, dice. “Y las respuestas no pueden superar cierta longitud: no estamos escribiendo un libro. Y cuando es posible, intentamos ser menos abiertos y más específicos. Cuanto más se puede reducir la interactividad, más fácil resulta y los costes se vuelven más fijos”.
Tantear el terreno
Otra forma de reducir los costes de tókenes es elegir estratégicamente el modelo que se va a utilizar. Un modelo más barato puede dar buenos resultados y ser más rápido. Por ejemplo, la consultora Publicis Sapient trabajó recientemente en un proyecto de cara al cliente para Marriott Homes & Villas, una empresa de alquiler a corto plazo.
“Si quieres irte de vacaciones a una casa en la playa y traer a tus perros, te dará una lista de casas basada en consultas en un back-end que se ajustó a los datos de las propiedades”, dice Sheldon Monteiro, jefe de producto de la empresa. A continuación, la empresa se fijó en la mejora de las conversiones, es decir, el aumento de los ingresos por añadir la función de búsqueda de IA generativa. Al fin y al cabo, el modelo más caro no proporciona necesariamente el mejor valor empresarial.
“Puede que obtengas una mejor respuesta con GPT-4, pero las tasas de conversión reales no eran muy diferentes de GPT-3.5”, afirma. “Así que al final nos decidimos por GPT-3.5”.
Y, al igual que DoiT, Marriott Homes & Villas descubrió que una consulta LLM controlada, incrustada en la aplicación, funcionaba mejor que un chatbot abierto. “Nos dimos cuenta de que la gente no quiere mantener una conversación”, dice Monteiro. “Inmediatamente quieren entrar en materia, para mostrar cómo podrían ser sus vacaciones”.
Una vez que el modelo de IA obtuviera los resultados, los visitantes serían llevados inmediatamente a una experiencia de búsqueda estándar, familiar para todos los que han utilizado servicios en línea.
“Nunca les damos una respuesta de texto; es sólo una lista de casas con una nueva búsqueda parametrizada”, añade. Esto no sólo elimina la posibilidad de que las conversaciones de ida y vuelta del chatbot acumulen costes de tókenes, sino que también elimina cualquier posibilidad de que los usuarios abusen del sistema.
Otra forma de hacerse una idea de los costes totales es no pasar directamente de la prueba de concepto a la producción, sino hacer primero un despliegue a pequeña escala. “Si lo expones a toda tu base de clientes, puede que te sorprenda lo extendida que está la adopción”, dice Monteiro. “Pero si lo expones primero a un pequeño número de usuarios, digamos, el 1%, y basas tu modelado en cómo los usuarios utilizarán realmente la experiencia, podrás predecir qué ocurrirá cuando amplíes la escala al 100%”.
La clave es adoptar un enfoque disciplinado a la hora de modelizar los costes. “No sólo como un ejercicio sobre el papel, sino con un pequeño porcentaje de usuarios en producción”, dice. Y una vez elegido un modelo, no es el final del camino.
“Con el ritmo de evolución de los modelos, la buena noticia es que, a medida que la tecnología sigue mejorando, los costes de inferencia realmente están bajando“, afirma. “OpenAI y otros proveedores están reduciendo los costes de sus modelos más antiguos y también están poniendo a disposición de los usuarios capacidades drásticamente mejoradas, que cuestan más dinero”.
Estas nuevas capacidades son otra oportunidad para que las empresas decidan si crearán un valor empresarial real.
Pero también hay muchos casos de uso en los que un LLM más pequeño, el aprendizaje automático tradicional o incluso una búsqueda por palabras clave podrían ser suficientemente buenos. “No utilice un modelo lingüístico grande para hacer algo que puede hacer un modelo lingüístico pequeño (SLM) o un sistema basado en reglas“, afirma Monteiro. Y hacerlo así tiene más ventajas que la mera reducción de costes.
“Si utilizamos un modelo lingüístico pequeño entrenado en un dominio concreto, podemos obtener respuestas muy rápidamente”, afirma. “Pero una búsqueda por palabras clave va a ser mucho más rápida que introducirla en un modelo lingüístico”.
Costes de latencia
Los costes del uso de la IA generativa van más allá de calcular lo que puede costar una consulta concreta. También está el coste de la latencia. Puede que esto no sea evidente en una prueba de concepto, pero una vez que un proyecto está en producción con documentos reales y usuarios reales y empieza a escalar, el rendimiento empezará a resentirse.
“Cuando ingerimos miles de documentos, en cualquiera de los LLM, el tiempo de respuesta oscila entre 30 y 60 segundos porque la ventana contextual se llena”, afirma Swaminathan Chandrasekaran, responsable de arquitectura de soluciones digitales de KPMG. “La gente dice que no puede esperar 60 segundos para hacer su siguiente pregunta. Así que aumentamos la capacidad, añadimos instancias dedicadas, y los costes empiezan a dispararse”.
También hay un límite de rendimiento por minuto establecido por los hiperescalares, que es un problema para muchas grandes empresas, incluida la propia KPMG. “El cliente cero es KPMG”, afirma. “Estamos experimentando con la creación de nuestro propio clúster Nvidia para ver si podemos resolver el problema de la latencia”, dice.
Además de cambiar los caros modelos comerciales por otros de código abierto, o pequeños modelos lingüísticos, KPMG también está experimentando con alternativas al hardware de procesamiento de IA tradicional. Por ejemplo, es posible ejecutar algunos SLM en hardware de propósito general, o incluso integrarlos en aplicaciones web para su clasificación y generación en memoria.
Por ejemplo, un sistema de comercio electrónico que necesite IA generativa para resumir reseñas de productos no necesita utilizar un gran modelo de lenguaje en la nube. “Se puede incrustar en mi aplicación de comercio electrónico”, afirma Chandrasekaran.
Del mismo modo, un motor de clasificación de productos puede clasificar las nuevas SKU a medida que llegan, o una aplicación de atención sanitaria puede clasificar las reclamaciones. “Se trata de modelos lingüísticos muy especializados”, afirma. La cuantificación es otra técnica que permite mejorar el rendimiento de un modelo lingüístico, aunque reduce la precisión.
Por último, el almacenamiento en caché es otra opción para resolver el problema de latencia cuando la gente hace siempre las mismas preguntas. “El problema es si la pregunta está redactada de forma diferente”, explica. “Pero hay técnicas de similitud”.
La IA generativa también tiene los costes de siempre. “Está el coste de almacenamiento, desarrollo y ejecución de la aplicación“, dice Chandrasekaran. Por ejemplo, añade, hace poco le costó a su equipo 7.000 dólares configurar un despliegue de Llama 3 en Azure porque todavía no estaba disponible en la modalidad de pago por uso.
“Había que configurarlo”, explica. “Y el cálculo necesario para ejecutar un modelo de 70.000 millones es significativo. Nosotros mismos lo configurábamos, aprovisionábamos un servidor, desplegábamos el modelo y luego había que añadir el uso”.
Azure ofrece ahora una opción de pago por uso en la que los clientes sólo pagan los costes de tókenes, pero para las empresas que quieren desplegar modelos on-prem, los costes de configuración siguen existiendo.
“En un mundo ideal, ese sería el mejor escenario porque ya no estás limitado por los costes de los tókenes”, afirma. “El único coste que se paga es el de la infraestructura. Pero sigues necesitando capacidad de cálculo y otras cosas, como redes”.
Costes de supervisión
Cuando la IA generativa entra en producción, otro coste inesperado puede ser la supervisión necesaria. Muchos sistemas requieren la participación de personas o costosas barreras técnicas para comprobar la precisión, reducir el riesgo o por razones de cumplimiento.
“No creo que esperáramos que la normativa llegara tan pronto”, afirma Sreekanth Menon, responsable mundial de IA en Genpact. “En cuanto apareció la IA generativa, se convirtió en un tema de liderazgo, y todos los gobiernos se despertaron y dijeron que necesitamos normativas”.
La ley de la Unión Europea ya está en vigor, y en Estados Unidos hay trabajo en marcha. “Ahora las empresas tienen que adaptarse a eso cuando desarrollan IA, y eso es un coste”, dice. Pero la normativa no es mala, añade. “Necesitamos normativas para que las decisiones sobre IA sean buenas y justas”, afirma.
Añadir el cumplimiento normativo una vez construidos los sistemas también es caro, pero las empresas pueden planificarlo con antelación estableciendo buenos sistemas de gobernanza de la IA. Garantizar la seguridad de los modelos de IA generativa y los sistemas asociados también es un coste para el que las empresas pueden no estar preparadas. Ejecutar una prueba de producción a pequeña escala no solo ayudará a las empresas a identificar problemas de cumplimiento y seguridad, dice, sino que les ayudará a calcular mejor otros costes auxiliares como los asociados a la infraestructura adicional, búsqueda, bases de datos, API y más. “Piensa a lo grande, haz pruebas a pequeña escala y escala rápido”, afirma.
Despliegue de la IA
En el pasado, con la IA tradicional, podría haber llevado un año o dos de experimentación antes de que un modelo de IA estuviera listo para su uso, pero los proyectos de IA generativa avanzan rápidamente.
“Los modelos básicos disponibles hoy en día permiten a las empresas pensar rápidamente en casos de uso”, afirma Menon. “Ahora estamos en una etapa en la que podemos pensar en un experimento y luego pasar a la producción rápidamente”. Sugiere a las empresas que se abstengan de realizar todos los proyectos de IA a la vez, que establezcan un mecanismo de costes y objetivos claros para cada proyecto, que empiecen poco a poco, que escalen con prudencia y que inviertan continuamente en la mejora de las cualificaciones. “La mejora de las cualificaciones es un coste, pero le ayudará a ahorrar en otros costes”, afirma.
Matthew Mettenheimer, director asociado de S-RM Intelligence and Risk Consulting, afirma que a menudo observa una proliferación de IA dentro de las empresas. “Un CIO o un consejo de administración quiere implantar la IA en toda la empresa y, antes de que se den cuenta, ya hay bastantes gastos y casos de uso”, explica.
Por ejemplo, S-RM trabajó recientemente con un gran fabricante de productos de consumo que decidió impulsar la habilitación de la IA a través de su negocio sin construir primero una estructura de gobierno. “Y cada departamento se lanzó a las carreras y comenzó a tratar de implementar IA generativa”, dice. “Tenías contratos superpuestos con diferentes herramientas para diferentes partes de la organización, lo que realmente comenzó a inflar su gasto. Su departamento de marketing utilizaba una herramienta, su equipo de TI utilizaba otra. Incluso dentro del mismo departamento, distintos equipos utilizaban herramientas diferentes”.
Como resultado, la empresa pagaba por servicios similares una y otra vez, y cada grupo tenía sus propios contratos, sin la eficacia de hacer las cosas a escala. Y la gente se suscribía a productos de IA generativa que no sabían cómo utilizar.
“Había muchas buenas intenciones e ideas a medias”, afirma. Como resultado, se produjo un aumento masivo del gasto en TI, afirma. Las empresas tienen que empezar por comprender en qué ámbitos puede influir realmente la IA generativa. Luego, las empresas deben construir sus proyectos paso a paso, de forma sostenible, en lugar de salir a comprar todo lo que puedan. Algunas áreas de especial preocupación, en las que las empresas podrían querer abstenerse de gastar, son los casos de uso que podrían implicar culpabilidad para la organización.
“Si usted es un proveedor de seguros, el uso de la IA para determinar si una reclamación se pagará o no puede acarrearle un poco de responsabilidad si el mecanismo de IA no se utiliza o calibra correctamente”, dice Mettenheimer. En su lugar, priorice los casos de uso en los que los trabajadores puedan liberarse para realizar tareas más complejas.
“Si alguien pasa cinco horas a la semana actualizando la misma hoja de cálculo y se puede reducir ese tiempo a cero horas semanales, se libera a esa persona para que sea más productiva”, añade. Pero si se tarda tanto tiempo en comprobar el trabajo de la IA como el que ahorra, el trabajo no será realmente más eficaz.
“La IA generativa es una herramienta realmente potente e increíble, pero no es mágica”, afirma. “Existe la idea errónea de que la IA podrá hacerlo todo sin necesidad de procesos manuales ni validación, pero aún no hemos llegado a ese punto”.
También recomienda no hacer proyectos de IA donde ya existen soluciones perfectamente buenas. “Conozco algunos casos en los que la gente quiere usar IA para sentir que obtienen una ventaja competitiva y poder decir que están usando IA para su producto”, dice. “Así que colocan IA encima, pero no obtienen ningún beneficio más allá de decir que están usando IA”.
Los altos ejecutivos están ansiosos por ponerse en marcha con la IA generativa, dice Megan Amdahl, vicepresidenta sénior de alianzas y operaciones de socios en Insight. “Pero sin un destino firme en mente, pueden perder mucho tiempo en ciclos que no logran los resultados que esperan”, afirma. Por ejemplo, los clientes suelen buscar pequeños casos de uso que mejoran la eficiencia de un pequeño número de personas. Puede parecer un gran proyecto, pero si no hay forma de ampliarlo, es fácil acabar con un mar de soluciones puntuales, ninguna de las cuales produce un impacto empresarial real.
“En Insight, estábamos seleccionando a qué equipo dirigirnos para mejorar la respuesta del servicio de asistencia”, explica. Uno de los casos más interesantes era el de un equipo de 50 personas que comprobaba el estado de los pedidos de los clientes. Pero no sólo se trataba de un equipo pequeño, sino que el personal estaba ubicado en lugares de bajo coste. Mejorar su eficiencia con IA generativa tendría cierto impacto, pero no significativo. Otro equipo creaba listas de materiales para los clientes, y era mucho mayor. “Nos centramos en un equipo de 850 personas para que tuviera un impacto más amplio”, explica.
Además de seleccionar proyectos con el mayor impacto posible, también recomienda buscar aquellos que tengan un alcance más reducido, en lo que a requisitos de datos se refiere. Tomemos, por ejemplo, un asistente de ayuda de IA generativa. “No busques todos los tipos de preguntas que la empresa pueda recibir”, dice. “Redúcelas y controla las respuestas que recibe. Así también se reduce la cantidad de datos que necesitas sacar”.
La organización de los datos es un reto importante para las empresas que implantan la IA, además de costoso. Los datos deben estar limpios y en un formato estructurado para reducir la imprecisión. Amdhal recomienda que las empresas que quieran decidir qué proyectos de IA generativa realizar primero se centren en la generación de ingresos, la reducción de costes y la mejora de la afinidad con su marca.
Read More from This Article: Cómo mantener el gasto en IA generativa bajo control
Source: News