La empresa emergente china de inteligencia artificial (IA) DeepSeek causó sensación la semana pasada cuando dio a conocer una versión de código abierto de su modelo de razonamiento, DeepSeek-R1, que afirma tener un rendimiento superior al modelo generativo preentrenado (GPT) o1 de OpenAI.
La noticia provocó que Nvidia, fabricante líder de GPU utilizadas para potenciar la IA en centros de datos, perdiera el lunes casi 600.000 millones de dólares de su capitalización bursátil porque las innovaciones de DeepSeek, según Gartner, parecen utilizar recursos de hardware y potencia informática significativamente menos avanzados, al tiempo que ofrecen un rendimiento comparable al de otros grandes modelos de lenguaje (LLM, por sus siglas en inglés) líderes a una fracción del coste.
“Los avances de DeepSeek podrían conducir a soluciones de IA más accesibles y asequibles, pero también requieren una cuidadosa consideración de factores estratégicos, competitivos, de calidad y de seguridad”, afirma Ritu Jyoti, vicepresidente de grupo y director general de Investigación mundial de IA, Automatización, Datos y Análisis en la práctica de investigación y asesoramiento de mercado de software de IDC.
Abierto a interpretación
Chirag Dekate, vicepresidente y analista de Gartner especializado en tecnologías cuánticas, IA, I+D digital y tecnologías emergentes, cree que el mercado está reaccionando de forma exagerada tanto a los detalles técnicos de lo que se necesitaba para entrenar a DeepSeek como a la fuente de la innovación en sí.
“Se alimenta de esta percepción de nosotros frente a un ellos desconocido, y también de una narrativa de patriotismo o nacionalismo”, afirma. “Estas narrativas se están afianzando porque capturan la imaginación más rápido que cualquiera que haga doble clic en el informe técnico, porque cuando ven los detalles, son menos glamurosos de lo que los titulares les hacían parecer”.
Sin embargo, eso no significa que se ignoren las innovaciones de DeepSeek. En una nota, Gartner dijo que DeepSeek desafía las estructuras de costes y metodologías de la IA generativa prevalentes, subrayando las ineficiencias en los modelos de precios de los principales proveedores actuales que pueden conducir a un retorno de la inversión negativo para casos de uso de alto valor implementados a escala.
“El modelo R1 de DeepSeek representa, por tanto, un cambio fundamental, que sugiere que el futuro de la IA generativa radica en enfoques innovadores y rentables, en lugar del paradigma tradicional de escalar a través de la mera fuerza computacional”, escribieron los investigadores de Gartner, entre los que se encuentran Haritha Khandabattu, Jeremy D’Hoinne, Rita Sallam, Leinar Ramos y Arun Chandrasekaran.
Peter Rutten, vicepresidente de investigación de Informática de Alto Rendimiento e Infraestructura Mundial en IDC, afirma que la conclusión clave de los resultados de DeepSeek es que el enfoque actual del entrenamiento de la IA, que se basa en la teoría de que la IA solo puede mejorar con una arquitectura más grande, más y más rápida, no está justificado.
“Los nuevos enfoques de algoritmos, marcos y software para el desarrollo de la IA ofrecen resultados comparables o incluso mejores que, por ejemplo, la última versión de ChatGPT, con la misma precisión y a una fracción del coste de infraestructura”, afirma Rutten. “Esto significa que el entrenamiento de la IA no tiene por qué ser dominio exclusivo de los hiperescalares que pueden permitirse invertir miles de millones de dólares en grandes construcciones de infraestructura”.
En cambio, añade, el enfoque desarrollado por DeepSeek demuestra que el desarrollo de la IA a gran escala está al alcance de las empresas desde el punto de vista de los costes y el impacto.
“Las iniciativas de IA de tamaño mediano o pequeño también se vuelven significativamente más asequibles, incluyendo la personalización o el ajuste de un modelo, así como la inferencia en un modelo”, afirma. “Creo que la IA será asequible, tal vez, con el tiempo, tan asequible como cualquier otra carga de trabajo, gracias al tipo de tecnologías que ha desarrollado DeepSeek”.
Gran interés para los CIO
Dekate cree que la noticia de DeepSeek es un recordatorio más de la velocidad a la que se está acelerando la innovación en IA, y que los CIO deben comprometerse con la IA generativa ahora, si no lo han hecho ya, o correr el riesgo de quedarse obsoletos.
“Los CIO tienen la opción de lanzarse, empezar a experimentar, empezar a crear estrategias de IA generativa, implementación y estrategias de despliegue hoy mismo, o quedarse tan atrás que ponerse al día ni siquiera sea una opción”, afirma.
Incluso si el mercado está reaccionando de forma exagerada al grado en que DeepSeek altera el panorama actual de la IA generativa, Dekate afirma que es una clara señal de que los CIO no pueden permitirse esperar más.
“DeepSeek está demostrando que los vectores de costes de la IA generativa acabarán siendo más eficaces y accesibles”, afirma.
Jyoti, de IDC, señala que Kai-Fu Lee, presidente y director ejecutivo de Sinovation Ventures, que fue director fundador de Microsoft Research Asia y es expresidente de Google China, predijo el año pasado que las empresas emergentes chinas de IA se centrarían en crear eficiencias.
“Al indagar en su receta secreta, es evidente que todo gira en torno al aprendizaje por refuerzo (RL) y cómo se ha utilizado”, añade Jyoti. “La mayoría de los modelos de lenguaje utilizan una combinación de preentrenamiento, ajuste supervisado y, a continuación, algo de RL para pulir las cosas. El enfoque de DeepSeek ha demostrado que los LLM son capaces de razonar solo con RL”.
Marcando la diferencia
DeepSeek-R1 es un nuevo LLM de peso abierto basado en el modelo base DeepSeek-V3. DeepSeek-R1-Zero es un modelo provisional entrenado únicamente a través de RL. Gartner afirma que demuestra que los proveedores de modelos pueden utilizar la RL pura para aumentar las capacidades en ciertos dominios, como las matemáticas y la codificación, donde las respuestas son difíciles de generar, pero fáciles de verificar.
Pero los investigadores de Gartner dijeron que el modelo DeepSeek no representa un nuevo paradigma de modelo. Más bien se basa en la arquitectura de entrenamiento LLM existente, añadiendo optimizaciones técnicas y arquitectónicas para hacer más eficientes el entrenamiento y la inferencia. DeepSeek tampoco establece un nuevo estado de la técnica para el rendimiento de los modelos. Los investigadores de Gartner añadieron que a menudo iguala, pero no supera, a los modelos de vanguardia existentes. También dijeron que DeepSeek no es prueba de que escalar modelos a través de computación y datos adicionales no importe. En cambio, muestra que vale la pena escalar un modelo más eficiente.
“El lanzamiento de R1 de DeepSeek y su precio de inferencia drásticamente más bajo en comparación con el modelo o1-preview de OpenAI van de la mano con la mercantilización más amplia de la capa del modelo LLM”, escribieron. “Eso significa que la eficiencia ya no se trata del coste por token”, agregaron los investigadores. “Se trata de qué modelo puede razonar más barato, sin afectar la precisión y la latencia. Así que el enfoque pronto se centrará en la escalabilidad eficiente de la IA frente a la cantidad de computación que se puede reunir para construirla”.
De acuerdo con su colega Dekate, los investigadores de Gartner señalan que, a raíz del anuncio de DeepSeek, otros creadores de modelos como Meta están en sus salas de guerra ideando planes a seguir. Por lo tanto, los CIO deben esperar una rápida reducción a corto y medio plazo del coste y el precio de los LLM, pero solo hasta cierto punto.
“Estas innovaciones basadas en software y algoritmos también permiten a los proveedores de modelos hacer más con un hardware más potente”, escribieron. “Los nuevos modelos más avanzados seguirán teniendo altos costes de I+D y computación que se trasladarán a los primeros usuarios”.
Jyoti, de IDC, ofrece cinco conclusiones clave para los CIO:
- Rentabilidad: los modelos de IA de DeepSeek afirman que consiguen un alto rendimiento a una fracción del coste en comparación con los modelos tradicionales. Esto podría significar que las empresas no tendrían que invertir tanto en infraestructura y hardware, lo que podría reducir las barreras de entrada para las capacidades avanzadas de IA.
- Panorama competitivo: La aparición de DeepSeek como un fuerte competidor de gigantes de la IA establecidos como OpenAI y Meta sugiere que el panorama de la IA se está volviendo más competitivo. Esto podría impulsar la innovación y obligar a los actores existentes a mejorar sus ofertas y reducir costes.
- Modelos de peso abierto: La decisión de DeepSeek de lanzar sus modelos como “de peso abierto” permite a los desarrolladores e investigadores acceder a su tecnología y desarrollarla. Esta apertura podría fomentar un entorno más colaborativo en la comunidad de la IA, acelerando los avances y las aplicaciones.
- Reevaluación estratégica: Dado que DeepSeek demuestra que se puede lograr una IA de alto rendimiento con menos datos y menores costes, es posible que los CIO tengan que reevaluar sus estrategias de IA. Esto incluye evaluar las inversiones actuales en infraestructura de IA y considerar alternativas más rentables.
- Privacidad y seguridad de los datos: Dado que DeepSeek tiene su sede en China, puede haber preocupaciones sobre la privacidad y seguridad de los datos. Los CIO deben considerar cuidadosamente las implicaciones de integrar tecnología de empresas que operan bajo diferentes entornos regulatorios.
Los analistas principales de Forrester, Carlos Casanova, Michele Pelino y Michele Goetz, señalan además que los CIO deben esperar que DeepSeek tenga un impacto en las tecnologías de computación de vanguardia, AIOps y operaciones de TI. En particular, DeepSeek tiene la capacidad de explicar sus respuestas por defecto, lo que ofrece una transparencia crucial para generar confianza y comprensión en las decisiones basadas en IA en las soluciones AIOps.
“Con los LLM ejecutándose en dispositivos periféricos, las AIOps y la observabilidad pueden alcanzar nuevos niveles de conocimiento y automatización en tiempo real”, escribieron. “La integración de LLM de menor tamaño que pueden ejecutarse en el borde, como DeepSeek R1, con AIOps también puede conducir a un mantenimiento más proactivo y predictivo de los dispositivos y la infraestructura, o a la inyección de acciones de mitigación de riesgos sin intervención humana”.
Read More from This Article: Cómo DeepSeek cambia la ecuación de la IA generativa para los CIO
Source: News