La inteligencia artificial (IA) generativa y, en particular, los grandes modelos de lenguaje ( LLM ) están cambiando la forma en que las empresas desarrollan y distribuyen software. Lo que comenzó con chatbots y herramientas de automatización simples se está convirtiendo en algo mucho más poderoso: sistemas de IA que están profundamente integrados en las arquitecturas de software e influyen en todo, desde los procesos de back-end hasta las interfaces de usuario. Una descripción general.
La ola de los ‘chatbots’: una tendencia a corto plazo
Actualmente, las empresas se están centrando en el desarrollo de chatbots y GPT personalizados para diversos problemas. Estas herramientas basadas en IA son especialmente útiles en dos áreas: hacer accesible el conocimiento interno y automatizar el servicio al cliente. Los chatbots se utilizan para crear sistemas de respuesta que brindan a los empleados un acceso rápido a amplias bases de conocimiento internas, rompiendo los silos de información.
Si bien son útiles, estas herramientas ofrecen un valor cada vez menor debido a la falta de innovación o diferenciación. Por último, los chatbots suelen ser interfaces de usuario inadecuadas debido a la falta de conocimiento sobre mejores alternativas para resolver determinados problemas.
El futuro se caracterizará por capacidades de IA más profundas que se integrarán perfectamente en los productos de software sin que sean evidentes para los usuarios finales.
IA generativa como tecnología ubicua
En los próximos años, la IA evolucionará desde una herramienta explícita y opaca con interacción directa con el usuario a un componente perfectamente integrado en el conjunto de funciones. La IA generativa permitirá funciones como la creación de contenido dinámico, la toma de decisiones inteligente y la personalización en tiempo real sin que los usuarios tengan que interactuar con ellas directamente. Esto cambiará fundamentalmente tanto el diseño de la interfaz de usuario como la forma en que se utiliza el software. En lugar de introducir manualmente parámetros específicos, los usuarios podrán describir cada vez más sus requisitos en lenguaje natural.
Un ejemplo claro de esto ya se puede ver en herramientas como Adobe Photoshop. La función “relleno generativo” ya no requiere el ajuste manual de múltiples parámetros. En su lugar, los usuarios pueden simplemente describir lo que quieren para rellenar un área seleccionada de la imagen. Esta tendencia hacia la introducción de texto en lenguaje natural se extenderá a todas las aplicaciones, haciendo que la experiencia de usuario sea más intuitiva y menos limitada por los elementos tradicionales de la interfaz de usuario.
El desafío en el futuro no será la escasez, sino la abundancia: identificar y priorizar las oportunidades más prometedoras.
El efecto ‘commodity’ de los LLM sobre los modelos ML especializados
Una de las transformaciones más notables que la IA generativa ha traído a la TI es la democratización de las capacidades de IA. Antes de los LLM y los modelos de difusión, las organizaciones tenían que invertir una cantidad significativa de tiempo, esfuerzo y recursos en el desarrollo de modelos de aprendizaje automático personalizados para resolver problemas difíciles. Esto requería roles y equipos especializados para recopilar datos específicos del dominio, preparar características, etiquetar datos, volver a entrenar y administrar todo el ciclo de vida de un modelo.
Los LLM están cambiando la forma en que las empresas abordan problemas que son difíciles o imposibles de resolver algorítmicamente, aunque el término “lenguaje” en los grandes modelos de lenguaje es engañoso. Estos modelos autorregresivos pueden, en última instancia, procesar cualquier cosa que se pueda descomponer fácilmente en tokens: imágenes, vídeos, sonidos e incluso proteínas. Las empresas pueden enriquecer estas versátiles herramientas con sus propios datos utilizando la arquitectura RAG (recuperación-generación aumentada). Esto hace que su amplia gama de capacidades sea utilizable.
En muchos casos, esto elimina la necesidad de contar con equipos especializados, un etiquetado extenso de datos y procesos complejos de aprendizaje automático. El amplio conocimiento previo de los LLM les permite procesar e interpretar de manera eficaz incluso datos no estructurados.
Un aspecto importante de esta democratización es la disponibilidad de los LLM a través de API fáciles de usar. Hoy en día, casi todos los desarrolladores saben cómo trabajar con servicios basados en API, lo que facilita la integración de estos modelos en los ecosistemas de software existentes. Esto permite a las empresas beneficiarse de modelos potentes sin tener que preocuparse por la infraestructura subyacente. Alternativamente, varios modelos pueden operarse localmente si existen requisitos específicos de seguridad o protección de datos. Sin embargo, esto se produce a costa de algunas de las ventajas que ofrecen los modelos de vanguardia líderes.
Tomemos, por ejemplo, una aplicación para registrar y gestionar gastos de viaje. Tradicionalmente, una aplicación de este tipo podría haber utilizado un modelo de ML especialmente entrenado para clasificar los recibos cargados en categorías contables, como DATEV. Esto requería una infraestructura dedicada e idealmente un flujo de trabajo MLOps completo (para el entrenamiento, la implementación y el monitoreo del modelo) para gestionar la recopilación de datos, el entrenamiento y las actualizaciones del modelo.
En la actualidad, un modelo de aprendizaje automático de este tipo se puede sustituir fácilmente por un modelo de aprendizaje automático que utilice su conocimiento del mundo junto con un buen indicador para la categorización de documentos. Las capacidades multimodales de los modelos de aprendizaje automático también eliminan la necesidad de reconocimiento óptico de caracteres (OCR) en muchos casos, lo que simplifica significativamente la pila de tecnología. ¿Los datos de los recibos también deben incluir precios netos y brutos o tasas de impuestos? Un modelo de aprendizaje automático también puede hacerlo.
Funciones impulsadas por IA que antes eran imposibles
La IA generativa permite una variedad de funciones que antes eran demasiado complejas, demasiado costosas o estaban completamente fuera del alcance de la mayoría de las organizaciones porque requerían inversiones en soluciones de aprendizaje automático personalizadas o algoritmos complejos. Veamos algunos ejemplos específicos.
Búsqueda basada en el estado de ánimo y el contexto: más allá de las palabras clave
La búsqueda basada en vibraciones representa un avance significativo respecto de los sistemas de búsqueda tradicionales basados en palabras clave.
Permite a los usuarios expresar su intención en lenguaje natural, capturando no solo términos específicos sino también el contexto completo y la “vibra” de su consulta.
Por ejemplo:
Búsqueda tradicional de palabras clave: “mejores restaurantes en Berlín”
Búsqueda basada en sentimientos y contexto: “Soy un entendido exigente y me encantan los bares de vinos que también sirven comida, preferiblemente con ingredientes regionales. Recomienden restaurantes en Berlín Mitte y Kreuzberg. No se permiten bares de vinos naturales dogmáticos, por favor”.
En el caso de una búsqueda basada en sentimientos y contexto, un LLM puede comprender y procesar lo siguiente:
- La autodescripción como un “conocedor perspicaz”
- Una preferencia por los bares de vinos que también ofrecen comida.
- Un deseo de ingredientes regionales
- Preferencias específicas de barrios (Mitte y Kreuzberg)
- Una distinción entre los bares de vinos comunes y los “bares de vinos naturales dogmáticos”
Este nivel de matices y comprensión contextual permite que la función de búsqueda ofrezca resultados altamente personalizados y relevantes, en lugar de simplemente coincidir con palabras clave.
La implementación de la búsqueda basada en sentimientos y contexto puede mejorar significativamente la experiencia del usuario en una variedad de aplicaciones:
- Bases de conocimiento internas: los empleados pueden utilizar consultas en lenguaje natural para encontrar información que describa su situación o necesidad específica.
- Plataformas de comercio electrónico: los clientes pueden describir los productos con sus propias palabras, incluso si no conocen la terminología exacta.
- Sistemas de atención al cliente: los usuarios pueden describir sus problemas con detalle. El sistema les ofrece soluciones más precisas o los deriva al personal de soporte adecuado.
- Sistemas de gestión de contenido: los editores de contenido pueden buscar activos o contenido utilizando un lenguaje descriptivo sin depender de etiquetas o metadatos extensos.
Análisis inteligente de datos y contenidos
Análisis de sentimientos
Veamos un ejemplo práctico: un sistema interno permite a los empleados publicar mensajes breves sobre su trabajo. Un gerente quiere evaluar el estado de ánimo general del equipo durante una semana específica. En el pasado, implementar el análisis de sentimientos de estas publicaciones con un modelo de ML personalizado habría sido un desafío. Con los LLM, esta complejidad se reduce a una simple llamada a la API.
El resultado no tiene por qué presentarse en un lenguaje legible para el ser humano. Puede presentarse como JSON estructurado, que el sistema procesa para mostrar los iconos o gráficos correspondientes. Otra opción es que el LLM presente simplemente emojis para representar los estados de ánimo. Por supuesto, esta función solo se implementaría con el consentimiento de los empleados.
Obtener información a partir de datos complejos
Otro ejemplo que ilustra el poder de los LLM en el análisis de datos complejos es la gestión inteligente de alarmas para sistemas de refrigeración.
Tradicionalmente, estos sistemas se han centrado en:
- Un panel de alarmas gráfico con datos y alertas en tiempo real
- Representaciones tabulares complejas y filtrables de datos de series temporales
Estas funciones son útiles, pero a menudo requieren una interpretación humana significativa para obtener información significativa. Aquí es donde los LLM pueden ampliar las capacidades del sistema al convertir datos sin procesar en información procesable de manera inmediata, sin la necesidad de modelos de aprendizaje automático especializados, a saber:
- Informes automáticos: los LLM pueden analizar datos de series temporales y generar informes detallados en lenguaje natural. Estos pueden destacar tendencias, anomalías e indicadores clave de rendimiento que son valiosos tanto para los técnicos como para los gerentes. Por ejemplo, un informe que resuma las alarmas de la semana pasada, identifique problemas recurrentes y sugiera áreas de mejora.
- Análisis en profundidad: los LLM pueden ir más allá de la simple presentación de datos para identificar y explicar patrones complejos en los datos. Por ejemplo, pueden identificar secuencias de alarmas que indican problemas importantes del sistema, información que podría pasarse por alto en una vista tabular o gráfica tradicional.
- Información predictiva: al analizar datos históricos, los LLM pueden hacer predicciones sobre estados futuros del sistema. Esto permite un mantenimiento proactivo y ayuda a prevenir posibles fallas.
- Salidas estructuradas: además de informes en lenguaje natural, los LLM también pueden generar datos estructurados (como JSON). Esto permite crear interfaces de usuario dinámicas y gráficas que representan visualmente información compleja.
- Consultas en lenguaje natural: los ingenieros pueden formular preguntas al sistema en lenguaje natural, como “¿Qué dispositivos es probable que pasen al modo de conmutación por error en las próximas semanas?” y recibir inmediatamente respuestas y visualizaciones relevantes. Esto reduce significativamente las barreras de entrada para la evaluación e interpretación de datos. Esta funcionalidad ahora también está disponible en OpenAI a través de una API en tiempo real.
La caja negra multimodal: escribir, hablar, ver y oír
La multimodalidad amplía enormemente las capacidades de los LLM. Los modelos que pueden procesar texto, imágenes, sonido y voz permiten combinaciones complejas de funciones. Un ejemplo de esto sería una aplicación que ayude a los usuarios a procesar contenido visual complejo y prepararlo en texto o voz.
La variedad de posibles casos de uso es enorme: un vídeo que recorre una estantería llena una base de datos con los títulos de los libros reconocidos; se identifican animales desconocidos que aparecen en el vídeo de vigilancia del gallinero; una mujer escocesa dice los nombres de las calles en el sistema de navegación de su coche de alquiler en Alemania.
Restricciones técnicas y soluciones
Los modelos de lenguaje de búsqueda tienen ciertas limitaciones técnicas. Una de las más importantes es la ventana de contexto: la cantidad de texto (más precisamente, la cantidad de tokens) que un modelo de lenguaje puede procesar en una sola pasada.
La mayoría de los LLM tienen una ventana de contexto limitada, que suele oscilar entre unos pocos miles y decenas de miles de tokens. Por ejemplo, la ventana de contexto de GPT-4 es de 128 000 tokens, mientras que Gemini 1.5 Pro puede procesar hasta 2 000 000 de tokens. Si bien esto puede parecer considerable, puede convertirse rápidamente en un cuello de botella cuando se trabaja con conjuntos de entrada como libros o vídeos largos.
Afortunadamente, existen varias estrategias para sortear esta limitación:
- Segmentación y resumen: los documentos grandes se dividen en segmentos más pequeños que se ajustan a la ventana de contexto. Cada segmento se procesa por separado y los resultados se fusionan posteriormente.
- Generación aumentada por recuperación (RAG): en lugar de confiar únicamente en el conocimiento (extremadamente amplio) del modelo, la información relevante se recupera de una fuente de datos separada y se incorpora al mensaje.
- Adaptación del dominio: la combinación de una ingeniería rápida y cuidadosa con bases de conocimiento específicas del dominio permite contar con experiencia en la materia sin limitar la versatilidad del modelo.
- Técnica de ventana deslizante: se puede utilizar una ventana deslizante para analizar secuencias de texto extensas, como datos de series temporales o documentos extensos. El modelo conserva parte del contexto a medida que avanza por todo el documento.
- Razonamiento en varias etapas: los problemas complejos se dividen en una serie de pasos más pequeños. Cada paso utiliza el LLM dentro de su ventana de contexto y los resultados de los pasos anteriores informan los pasos posteriores.
- Enfoques híbridos: los métodos tradicionales de recuperación de información, como TF-IDF y BM25, pueden filtrar previamente los pasajes de texto relevantes. Esto reduce significativamente la cantidad de datos para el análisis LLM posterior, lo que aumenta la eficiencia del sistema en general.
IA generativa como componente estándar en el ‘software’ empresarial
Las empresas deben reconocer la IA generativa por lo que es: una tecnología de uso general que afecta a todo. Se convertirá en parte de la pila de desarrollo de software estándar, así como en un facilitador integral de funciones nuevas o existentes. Para garantizar la viabilidad futura del desarrollo de software, no solo es necesario adquirir herramientas de IA para el desarrollo de software, sino también preparar la infraestructura, los patrones de diseño y las operaciones para la creciente influencia de la IA.
A medida que esto sucede, el papel de los arquitectos de software, los desarrolladores y los diseñadores de productos también evolucionará. Deberán desarrollar nuevas habilidades y estrategias para diseñar funciones de IA, manejar resultados no deterministas e integrarse sin problemas con varios sistemas empresariales. Las habilidades blandas y la colaboración entre roles técnicos y no técnicos serán más importantes que nunca, a medida que las habilidades duras puras se vuelvan más baratas y más automatizables.
Read More from This Article: ¿Hemos llegado al final de lo ‘demasiado caro’ para el software empresarial?
Source: News