Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Lograr la infraestructura adecuada para la IA generativa

Se dice que los hechos son tozudos. Para la IA generativa, un hecho obstinado es que consume grandes cantidades de ciclos de cálculo, almacenamiento de datos, ancho de banda de red, energía eléctrica y aire acondicionado. A medida que los CIO responden a los mandatos corporativos de ‘hacer algo’ con la IA generativa, muchos lanzan iniciativas basadas en la nube o en las instalaciones. Pero mientras que la rentabilidad prometida por muchos proyectos de IA generativa es imprecisa, los costes de la infraestructura para ejecutarlos son finitos y, con demasiada frecuencia, inaceptablemente altos.

Con o sin infraestructura, la IA generativa está en marcha. Según IDC, las cargas de trabajo de la IA generativa están pasando del 7,8% del mercado global de servidores de IA en 2022 al 36% en 2027. En almacenamiento, la curva es similar, con un crecimiento del 5,7% del almacenamiento de IA en 2022 al 30,5% en 2027. La investigación de IDC concluye que aproximadamente la mitad del gasto mundial en IA generativa en 2024 se destinará a infraestructura digital. La firma de análisis e investigación prevé que el mercado mundial de infraestructuras (servidores y almacenamiento) para todo tipo de IA se duplicará, pasando de 28.100 millones de dólares en 2022 a 57.000 millones en 2027.

Pero la enorme cantidad de infraestructura necesaria para procesar los grandes modelos de lenguaje (LLM) de IA generativa, junto con los requisitos de potencia y refrigeración, se está volviendo rápidamente insostenible.

“Se gastará en clústeres con redes de gran ancho de banda para construir entornos casi similares a los de HPC [computación de alto rendimiento]”, advierte Peter Rutten, vicepresidente de Investigación de Computación Intensiva en Rendimiento de IDC. “Todas las organizaciones deberían pensárselo mucho antes de invertir en un gran clúster de nodos de GPU”, afirma Rutten, y se pregunta: “¿Cuál es su caso de uso? ¿Disponen de los conocimientos necesarios para el centro de datos y la ciencia de datos?”.

Cambio a modelos de lenguaje reducido e infraestructura híbrida

Los responsables de TI son conscientes del riesgo de gastar más de la cuenta en infraestructura de IA generativa, ya sea local o en la nube. Tras analizar detenidamente sus operaciones físicas y las capacidades de su personal, así como la letra pequeña de los contratos en la nube, algunos están ideando estrategias que están ofreciendo un retorno positivo de la inversión. 

Mozziyar Etemadi, director médico de Tecnologías Avanzadas de Northwestern Medicine, que buscaba aumentar la productividad de los equipos de radiología, crónicamente escasos de personal, emprendió un proyecto de IA generativa diseñado para acelerar la interpretación de las imágenes de rayos X. Pero en lugar de acumular recursos informáticos, el proyecto se basó en la nube. Pero en lugar de amontonar la infraestructura de computación, almacenamiento y redes para gestionar los enormes LLM, Northwestern Medicine redujo los requisitos de infraestructura trabajando con pequeños modelos de lenguaje (SLM).

Etemadi empezó experimentando con servicios basados en la nube, pero descubrió que eran difíciles de manejar y caros. “Los probé, pero no conseguimos que [la IA generativa] funcionara con un sobrecoste favorable”. Eso llevó a Etimadi a darse cuenta de que tendría que encabezar un esfuerzo de ingeniería dedicado.

Al frente de un equipo de una docena de tecnólogos médicos, Etemadi construyó un clúster de cuatro nodos de servidores Dell PowerEdge XE9680 con ocho GPU Nvidia H100 Tensor Core, conectadas con la red InfiniBand Nvidia Quantum-2. El clúster funcionaba en un centro de colocación, donde Etimadi se encargaba de la gestión de la red. El clúster, que se ejecuta en una instalación de colocación, recibe datos multimodales (imágenes, texto y vídeo) que entrenan al SLM para interpretar las radiografías. La aplicación resultante, patentada recientemente, genera interpretaciones muy precisas de las imágenes y las transmite a una persona en bucle (HITL) para que emita su dictamen final.

“Es multimodal, pero diminuta. El número de parámetros es de unos 300 millones. En comparación con ChatGPT, que tiene al menos un billón”, explica Etimadi, que prevé desarrollar la aplicación inicial de rayos X para interpretar tomografías computarizadas, imágenes de resonancia magnética y colonoscopias.

Calcula que utilizar un servicio basado en la nube para el mismo trabajo costaría aproximadamente el doble de lo que cuesta hacer funcionar el clúster de Dell. “En la nube, estás pagando por horas y estás pagando una prima”. En cambio, asegura, “prácticamente cualquier hospital de EE.UU. puede comprar cuatro ordenadores. Está bien dentro del presupuesto”.

En cuanto al almacenamiento de datos, Northwestern Medicine utiliza tanto la nube como la infraestructura local para el almacenamiento temporal y permanente. “Se trata de elegir la herramienta adecuada para el trabajo. Con el almacenamiento, realmente no hay una talla única para todos”, dice Etemadi, y añade: “Como regla general, el almacenamiento es donde la nube tiene la tarifa premium más alta.”

En las instalaciones, Northwestern Medicine está utilizando una mezcla de equipos Dell NAS, SAN, seguros y de infraestructura hiperconvergente. “Analizamos cuántos datos necesitábamos y durante cuánto tiempo. La mayoría de las veces, la nube no es definitivamente más barata”, asegura Editmadi.

El cálculo de costes de los clústeres de GPU

Enfrentada a retos similares, Papercup Technologies, una empresa británica que ha desarrollado servicios de traducción y doblaje de idiomas basados en IA generativa, adoptó un enfoque diferente. Los clientes de Papercup que buscan globalizar el atractivo de sus productos utilizan el servicio de la compañía para generar voces en off convincentes en muchos idiomas para su uso en vídeos comerciales. Antes de finalizar un trabajo, un HITL examina los resultados para comprobar su precisión y pertinencia cultural. El trabajo de LLM empezó en un edificio de oficinas londinense, que pronto se quedó pequeño ante las exigencias de infraestructura de la IA generativa.

“Al principio resultó bastante rentable comprar nuestro propio hardware, que era un clúster de cuatro GPU”, explica Doniyor Ulmasov, jefe de Ingeniería de Papercup. Calcula un ahorro inicial de entre el 60% y el 70% en comparación con los servicios basados en la nube. “Pero cuando añadimos otras seis máquinas, los requisitos de potencia y refrigeración eran tales que el edificio no podía albergarlas. Tuvimos que pagar por máquinas que no podíamos utilizar porque no podíamos refrigerarlas”, relata.

Y la electricidad y el aire acondicionado no eran los únicos obstáculos. “Los equipos de nivel de servidor requieren conocimientos técnicos para cosas como la configuración de redes y la gestión remota. Gastábamos muchos recursos humanos en mantener los sistemas, así que el ahorro no era real”, añade.

En ese momento, Papercup decidió que necesitaba la nube. La empresa utiliza ahora Amazon Web Services, donde se gestionan las cargas de trabajo de traducción y doblaje para los clientes, que revisa un HITL. Las cargas de trabajo de formación más sencillas se siguen ejecutando en las instalaciones, en una mezcla de servidores equipados con hardware Nvidia A100 Tensor Core, GeForce RTX 4090 y GeForce RTX 2080Ti. La formación más intensiva en recursos se gestiona en un clúster alojado en Google Cloud Platform. Basándose en sus servicios actuales, Papercup está explorando la traducción de idiomas y el doblaje de eventos deportivos y películas en directo, afirma Ulmasov.

Para Papercup, las decisiones de infraestructura vienen determinadas tanto por la geografía como por los requisitos tecnológicos. “Si tuviéramos un almacén enorme fuera del área metropolitana [de Londres], se podría argumentar [a favor de mantener el trabajo en las instalaciones]. Pero estamos en el centro de la ciudad. Si el espacio, la energía y la refrigeración no fueran un problema, me plantearía la posibilidad de trabajar en nuestras instalaciones“, afirma Ulmasov.

Más allá de las GPU

Por el momento, los clústeres basados en GPU son simplemente más rápidos que las configuraciones basadas en CPU, y eso importa. Tanto Etimadi como Ulmasov afirman que el uso de sistemas basados en CPU provocaría retrasos inaceptables que harían esperar a sus expertos en HITL. Sin embargo, según Rutten, de IDC, la elevada demanda energética de la actual generación de GPU no hará sino aumentar.

“La GPU actual de Nvidia tiene un consumo de 700 vatios y la siguiente lo duplica. Es como una calefacción. No veo cómo se va a resolver fácilmente ese problema”, afirma el analista. 

El reinado de las GPU en IA generativa y otras formas de IA podría verse desafiado por una serie de coprocesadores de IA emergentes y, con el tiempo, quizás por la computación cuántica.

“La GPU se inventó para el procesamiento de gráficos, por lo que no está optimizada para la IA. Cada vez veremos más hardware especializado en IA”, predice Claus Torp Jensen, antiguo director de Información y director de Tecnología y actual asesor tecnológico. Aunque no prevé la desaparición de las GPU, afirma que los futuros algoritmos de IA serán gestionados por una mezcla de CPU, GPU y coprocesadores de IA, tanto en las instalaciones como en la nube.

Otro factor que juega en contra del consumo energético sin paliativos es la sostenibilidad. Muchas organizaciones han adoptado objetivos de sostenibilidad, que los algoritmos de IA que consumen mucha energía dificultan. Rutten dice que, cuando la sostenibilidad es una prioridad, merece la pena explorar el uso de SLM, CPU basadas en ARM y proveedores de nube que mantengan políticas de cero emisiones o que funcionen con electricidad producida por fuentes renovables.

Para las implantaciones que requieren cargas de trabajo a gran escala, el uso de microprocesadores construidos con matrices de puertas programables en campo (FPGA) o circuitos integrados específicos de la aplicación (ASIC) es una opción que merece la pena considerar.

“Son mucho más eficientes y pueden ser más potentes. Hay que codificarlos por hardware desde el principio y eso lleva tiempo y trabajo, pero se puede ahorrar mucho en comparación con las GPU”, afirma Rutten.

Hasta que aparezcan procesadores mucho más rápidos que consuman menos energía y generen menos calor, la GPU será una realidad obstinada para la IA generativa, y poner en marcha implementaciones de IA generativa rentables exigirá ingenio y perseverancia. Pero, como demuestran Etimadi y Ulmasov, el reto no está fuera del alcance de las estrategias que utilizan pequeños modelos lingüísticos y una hábil combinación de servicios locales y basados en la nube.


Read More from This Article: Lograr la infraestructura adecuada para la IA generativa
Source: News

Category: NewsJune 4, 2024
Tags: art

Post navigation

PreviousPrevious post:Anaya robustece su infraestructura TI blindando la continuidad operativaNextNext post:Strategic planning: How CIOs can build the best possible future

Related posts

세일즈포스, 에이전트포스에 생성형 AI·멀티모달·산업 특화 기능 강화
June 20, 2025
‘대학 교육·행정에 생성형 AI 전면 도입’··· 美 뱁슨칼리지 사례
June 20, 2025
마이크로소프트의 소버린 클라우드, ‘주권’을 얼마나 보장할까?
June 20, 2025
로봇 언어 능력↑, 배송 정확도↑···아마존, AI로 물류 혁신 강화
June 20, 2025
레노버, 모레·AMD와 공동 AI 솔루션 발표··· “추론 성능 최적화”
June 20, 2025
AI agent adoption and the future of the enterprise
June 19, 2025
Recent Posts
  • 세일즈포스, 에이전트포스에 생성형 AI·멀티모달·산업 특화 기능 강화
  • ‘대학 교육·행정에 생성형 AI 전면 도입’··· 美 뱁슨칼리지 사례
  • 마이크로소프트의 소버린 클라우드, ‘주권’을 얼마나 보장할까?
  • 로봇 언어 능력↑, 배송 정확도↑···아마존, AI로 물류 혁신 강화
  • 레노버, 모레·AMD와 공동 AI 솔루션 발표··· “추론 성능 최적화”
Recent Comments
    Archives
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.