Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Los datos sintéticos buscan resolver los desafíos del entrenamiento de la IA

El uso de datos sintéticos para entrenar modelos de inteligencia artificial (IA) está a punto de dispararse, ya que las organizaciones buscan llenar los vacíos en sus datos internos, crear capacidades especializadas y proteger la privacidad de los clientes, predicen los expertos.

La tendencia de los datos sintéticos se extenderá más allá de los proveedores de grandes modelos de lenguaje grande (LLM) hasta su adopción generalizada, incluso entre los CIO de las empresas, sostienen estos expertos. Gartner, por ejemplo, prevé que para 2028, el 80% de los datos utilizados por las IA serán sintéticos, frente al 20% en 2024.

El concepto de utilizar datos sintéticos para entrenar modelos de IA existe desde hace años, y muchas empresas de sectores altamente regulados ya han adoptado la técnica, afirma Alexandra Ebert, directora de IA y Democratización de Datos de Mostly AI, un proveedor de datos sintéticos.

“Uno de los mayores problemas para las organizaciones cuando quieren avanzar hacia el desarrollo de la IA es que los datos más valiosos que poseen, la mayoría de las veces los datos de los clientes, están bloqueados debido al GRPD [de la UE] u otras leyes de privacidad”, afirma. “Gracias a los datos sintéticos, pueden anonimizar estos datos de una manera mucho más eficiente y de mayor calidad que todas las tecnologías de anonimización heredadas, como el enmascaramiento y la ofuscación”.

Además del GDPR, la ley de privacidad, la Ley de IA de la UE señala los datos sintéticos como una forma de proteger la privacidad y la información sensible, al igual que el Plan de Acción de Oportunidades de IA del Reino Unido, publicado en enero. También en enero, el gobierno de Corea del Sur anunció una inversión de 88 millones de dólares para impulsar el uso de datos sintéticos en la industria biotecnológica.

Además de los desafíos de privacidad, algunos expertos en IA también sugieren que las grandes empresas de IA se están quedando sin información del mundo real para entrenar sus modelos de IA. Un creciente número de demandas por derechos de autor contra proveedores de IA, incluida una reciente victoria judicial para el titular de los derechos de autor Thomson Reuters, también puede llevar a los proveedores de IA a adoptar datos sintéticos.

Creación de mejores conjuntos de datos

Una de las principales razones para utilizar datos sintéticos es cuando los datos internos de una organización están incompletos o en mal estado. Hay muchos tipos de datos sintéticos (una IA que crea una imagen de un unicornio montado en un tren en Marte sería un resultado de datos sintéticos), pero crear mejores datos a partir de fuentes internas pronto será una capacidad esencial para muchas organizaciones, afirma Jonathan Frankle, científico jefe de IA del proveedor de plataformas de IA Databricks.

El resultado de utilizar información orgánica interna para crear nuevos conjuntos de datos crea una forma de datos sintéticos que Frankle denomina datos ‘biónicos’.

“Ese tipo de datos biónicos es mi herramienta favorita en el mundo de los datos sintéticos, con la capacidad de aprovechar la información que tienes y transformarla en la forma que necesitas”, dice. “Sería una gran suerte, sería muy afortunado, si el problema que intentas resolver coincidiera con un conjunto de datos exacto que ya tienes”.

Este proceso de combinación puede crear datos específicos de un dominio o contexto que pueden ser de gran beneficio para los usuarios, añade Frankle. “Puede ser muy poderoso, porque puede ayudarte a obtener exactamente los datos correctos que deseas, exactamente los comportamientos, propiedades y forma de datos correctos que buscas”, añade.

Coches autónomos y desarrollo de ‘software’ de IA

Un buen uso de los datos sintéticos sería entrenar a los coches autónomos cuando necesitan frenar, dice Ebert, de AI. En lugar de filmar millones de horas de vídeo que muestren múltiples condiciones climáticas, obstáculos y otras variables potenciales, los fabricantes de automóviles pueden utilizar imágenes generadas sintéticamente para imitar las condiciones del mundo real.

“Podemos utilizar datos semilla, como vídeos de conejos o niños o cualquier cosa con la que queramos entrenar, lo que nos permite crear millones de ejemplos distintos que siguen siendo realistas”, afirma.

Otro ejemplo es el de Poolside, un desarrollador de IA centrado en la ingeniería de software. La empresa utiliza datos sintéticos para crear un “campo de entrenamiento de codificación masivo” que permite a sus modelos de IA centrarse en tareas de codificación complejas, afirma Eiso Kant, director de Tecnología y cofundador.

“Los datos sintéticos abordan la escasez de datos al proporcionar una forma rentable de generar conjuntos de datos grandes y diversos adaptados a necesidades específicas, como el desarrollo de software”, afirma. “En esencia, los datos sintéticos permiten a la IA aprender de una fuente de información más amplia y limpia, lo que da como resultado sistemas de IA más eficientes, seguros y robustos”.

Los datos sintéticos también pueden dar a las empresas una ventaja competitiva, afirma Kant, después de que la primera oleada de LLM se entrenara con fuentes de datos similares.

“Cuando los principales proveedores de IA se basan en los mismos datos fácilmente disponibles para entrenar sus modelos, sus únicas ventajas competitivas reales son el talento y el acceso a recursos informáticos más potentes”, afirma. “Estas empresas han estado aprovechando bien los mismos datos y limitando el potencial de avances únicos”.

El ser humano en el circuito

Sin embargo, la creación de datos sintéticos conlleva sus propios retos. La generación de datos sintéticos útiles requiere una cuidadosa selección por parte de los profesionales de datos, afirma Frankle.

“Los datos sintéticos son una herramienta poderosa, pero la herramienta aún necesita un operador”, añade. “No se pueden abrir los grifos y obtener datos sintéticos”.

El uso de la información de los clientes para generar datos sintéticos, por ejemplo, puede dejar un residuo de datos privados si no se supervisa cuidadosamente el proceso, dice Frankle. “No es una panacea para el problema de tratar de ofuscar la información del cliente y obtener un conjunto de datos de entrenamiento”, añade. “No hay un botón fácil para ello. No es una panacea y requiere mucho cuidado”.

Los datos sintéticos pueden generarse mediante varias técnicas, como la generación aleatoria de datos y los modelos generativos, un tipo de aprendizaje automático. También es posible que un modelo de IA genere nuevos datos de entrenamiento para sí mismo, pero es necesario realizar pruebas rigurosas, porque el proceso puede conducir a los llamados bucles autorreferenciales, afirma Kant.

“Esto puede introducir imprecisiones, ya que el modelo refuerza su propia comprensión potencialmente errónea”, añade. “Al igual que una serpiente que se muerde la cola no demuestra ningún sustento real y puede ser autodestructiva, un modelo entrenado en su propia salida distorsionada puede desvincularse cada vez más de la realidad”.


Read More from This Article: Los datos sintéticos buscan resolver los desafíos del entrenamiento de la IA
Source: News

Category: NewsFebruary 20, 2025
Tags: art

Post navigation

PreviousPrevious post:Why HR professionals struggle with big dataNextNext post:Outdated business apps can cloud your AI vision

Related posts

Barb Wixom and MIT CISR on managing data like a product
May 30, 2025
Avery Dennison takes culture-first approach to AI transformation
May 30, 2025
The agentic AI assist Stanford University cancer care staff needed
May 30, 2025
Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
May 30, 2025
“AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
May 30, 2025
“ROI는 어디에?” AI 도입을 재고하게 만드는 실패 사례
May 30, 2025
Recent Posts
  • Barb Wixom and MIT CISR on managing data like a product
  • Avery Dennison takes culture-first approach to AI transformation
  • The agentic AI assist Stanford University cancer care staff needed
  • Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
  • “AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.