El uso de datos sintéticos para entrenar modelos de inteligencia artificial (IA) está a punto de dispararse, ya que las organizaciones buscan llenar los vacíos en sus datos internos, crear capacidades especializadas y proteger la privacidad de los clientes, predicen los expertos.
La tendencia de los datos sintéticos se extenderá más allá de los proveedores de grandes modelos de lenguaje grande (LLM) hasta su adopción generalizada, incluso entre los CIO de las empresas, sostienen estos expertos. Gartner, por ejemplo, prevé que para 2028, el 80% de los datos utilizados por las IA serán sintéticos, frente al 20% en 2024.
El concepto de utilizar datos sintéticos para entrenar modelos de IA existe desde hace años, y muchas empresas de sectores altamente regulados ya han adoptado la técnica, afirma Alexandra Ebert, directora de IA y Democratización de Datos de Mostly AI, un proveedor de datos sintéticos.
“Uno de los mayores problemas para las organizaciones cuando quieren avanzar hacia el desarrollo de la IA es que los datos más valiosos que poseen, la mayoría de las veces los datos de los clientes, están bloqueados debido al GRPD [de la UE] u otras leyes de privacidad”, afirma. “Gracias a los datos sintéticos, pueden anonimizar estos datos de una manera mucho más eficiente y de mayor calidad que todas las tecnologías de anonimización heredadas, como el enmascaramiento y la ofuscación”.
Además del GDPR, la ley de privacidad, la Ley de IA de la UE señala los datos sintéticos como una forma de proteger la privacidad y la información sensible, al igual que el Plan de Acción de Oportunidades de IA del Reino Unido, publicado en enero. También en enero, el gobierno de Corea del Sur anunció una inversión de 88 millones de dólares para impulsar el uso de datos sintéticos en la industria biotecnológica.
Además de los desafíos de privacidad, algunos expertos en IA también sugieren que las grandes empresas de IA se están quedando sin información del mundo real para entrenar sus modelos de IA. Un creciente número de demandas por derechos de autor contra proveedores de IA, incluida una reciente victoria judicial para el titular de los derechos de autor Thomson Reuters, también puede llevar a los proveedores de IA a adoptar datos sintéticos.
Creación de mejores conjuntos de datos
Una de las principales razones para utilizar datos sintéticos es cuando los datos internos de una organización están incompletos o en mal estado. Hay muchos tipos de datos sintéticos (una IA que crea una imagen de un unicornio montado en un tren en Marte sería un resultado de datos sintéticos), pero crear mejores datos a partir de fuentes internas pronto será una capacidad esencial para muchas organizaciones, afirma Jonathan Frankle, científico jefe de IA del proveedor de plataformas de IA Databricks.
El resultado de utilizar información orgánica interna para crear nuevos conjuntos de datos crea una forma de datos sintéticos que Frankle denomina datos ‘biónicos’.
“Ese tipo de datos biónicos es mi herramienta favorita en el mundo de los datos sintéticos, con la capacidad de aprovechar la información que tienes y transformarla en la forma que necesitas”, dice. “Sería una gran suerte, sería muy afortunado, si el problema que intentas resolver coincidiera con un conjunto de datos exacto que ya tienes”.
Este proceso de combinación puede crear datos específicos de un dominio o contexto que pueden ser de gran beneficio para los usuarios, añade Frankle. “Puede ser muy poderoso, porque puede ayudarte a obtener exactamente los datos correctos que deseas, exactamente los comportamientos, propiedades y forma de datos correctos que buscas”, añade.
Coches autónomos y desarrollo de ‘software’ de IA
Un buen uso de los datos sintéticos sería entrenar a los coches autónomos cuando necesitan frenar, dice Ebert, de AI. En lugar de filmar millones de horas de vídeo que muestren múltiples condiciones climáticas, obstáculos y otras variables potenciales, los fabricantes de automóviles pueden utilizar imágenes generadas sintéticamente para imitar las condiciones del mundo real.
“Podemos utilizar datos semilla, como vídeos de conejos o niños o cualquier cosa con la que queramos entrenar, lo que nos permite crear millones de ejemplos distintos que siguen siendo realistas”, afirma.
Otro ejemplo es el de Poolside, un desarrollador de IA centrado en la ingeniería de software. La empresa utiliza datos sintéticos para crear un “campo de entrenamiento de codificación masivo” que permite a sus modelos de IA centrarse en tareas de codificación complejas, afirma Eiso Kant, director de Tecnología y cofundador.
“Los datos sintéticos abordan la escasez de datos al proporcionar una forma rentable de generar conjuntos de datos grandes y diversos adaptados a necesidades específicas, como el desarrollo de software”, afirma. “En esencia, los datos sintéticos permiten a la IA aprender de una fuente de información más amplia y limpia, lo que da como resultado sistemas de IA más eficientes, seguros y robustos”.
Los datos sintéticos también pueden dar a las empresas una ventaja competitiva, afirma Kant, después de que la primera oleada de LLM se entrenara con fuentes de datos similares.
“Cuando los principales proveedores de IA se basan en los mismos datos fácilmente disponibles para entrenar sus modelos, sus únicas ventajas competitivas reales son el talento y el acceso a recursos informáticos más potentes”, afirma. “Estas empresas han estado aprovechando bien los mismos datos y limitando el potencial de avances únicos”.
El ser humano en el circuito
Sin embargo, la creación de datos sintéticos conlleva sus propios retos. La generación de datos sintéticos útiles requiere una cuidadosa selección por parte de los profesionales de datos, afirma Frankle.
“Los datos sintéticos son una herramienta poderosa, pero la herramienta aún necesita un operador”, añade. “No se pueden abrir los grifos y obtener datos sintéticos”.
El uso de la información de los clientes para generar datos sintéticos, por ejemplo, puede dejar un residuo de datos privados si no se supervisa cuidadosamente el proceso, dice Frankle. “No es una panacea para el problema de tratar de ofuscar la información del cliente y obtener un conjunto de datos de entrenamiento”, añade. “No hay un botón fácil para ello. No es una panacea y requiere mucho cuidado”.
Los datos sintéticos pueden generarse mediante varias técnicas, como la generación aleatoria de datos y los modelos generativos, un tipo de aprendizaje automático. También es posible que un modelo de IA genere nuevos datos de entrenamiento para sí mismo, pero es necesario realizar pruebas rigurosas, porque el proceso puede conducir a los llamados bucles autorreferenciales, afirma Kant.
“Esto puede introducir imprecisiones, ya que el modelo refuerza su propia comprensión potencialmente errónea”, añade. “Al igual que una serpiente que se muerde la cola no demuestra ningún sustento real y puede ser autodestructiva, un modelo entrenado en su propia salida distorsionada puede desvincularse cada vez más de la realidad”.
Read More from This Article: Los datos sintéticos buscan resolver los desafíos del entrenamiento de la IA
Source: News