Cómo garantizar que los datos de su empresa estén “preparados para la IA”

Muchas organizaciones están experimentando con agentes de IA para determinar en qué funciones laborales centrarse, cuándo automatizar acciones y qué pasos requieren la intervención humana. Los agentes de IA conectan la potencia de los grandes modelos lingüísticos con las API, lo que les permite actuar e integrarse de forma fluida en los flujos de trabajo de los empleados y en las experiencias de los clientes en una amplia variedad de ámbitos:

· Los agentes de IA de operaciones de campo pueden ayudar a esbozar los pasos para atender una llamada de servicio.

· Los agentes de RR. HH. colaboran con los reclutadores para programar entrevistas con los mejores candidatos.

· Los agentes de IA financieros ayudan a responder a los retos diarios de la gestión de la cadena de suministro, las compras y las cuentas por cobrar.

· Los agentes de codificación se integran en plataformas de desarrollo asistidas por IA que facilitan una codificación más fluida y aceleran el desarrollo de aplicaciones.

· Los agentes de IA se están integrando en el lugar de trabajo, donde participan en reuniones, resumen debates, crean tareas de seguimiento y programan las próximas reuniones.

En consecuencia, las organizaciones de TI de primer nivel están adaptando sus estrategias y prácticas para desarrollar agentes de IA y, al mismo tiempo, mitigar los riesgos asociados a implementaciones rápidas. Rani Johnson, directora de informática de Workday, explica que “crear un equipo de TI de primer nivel significa liderar el debate sobre los riesgos». Y añade: “Trabajamos en estrecha colaboración con nuestros equipos jurídicos, de privacidad y de seguridad para establecer una tolerancia clara al riesgo de adopción que se ajuste a nuestra estrategia general”.

Una pregunta clave para todos los líderes tecnológicos, de datos y empresariales es si los datos subyacentes a los que acceden los agentes de IA están “preparados de verdad para la IA”. Según el informe Beyond Big Data, de Ocient, el 97% de los líderes informa de un aumento notable en el procesamiento de datos debido a la IA, pero sólo el 33% se ha preparado completamente para la escala y la complejidad crecientes del lugar de trabajo impulsado por la IA. Establecer la preparación de los datos para la IA es fundamental, ya que la mayoría de los agentes de IA aprovecha los datos corporativos para ofrecer respuestas y recomendaciones específicas para cada negocio, sector y función.

Pregunté a líderes empresariales y tecnológicos cómo evaluaban la preparación de los datos para agentes de IA en ámbitos como ventas, recursos humanos, finanzas y operaciones de TI. De estas conversaciones surgieron siete prácticas fundamentales.

1. Centralizar los datos y la inteligencia

Los departamentos de TI han realizado importantes inversiones para centralizar los datos en almacenes y lagos de datos, y también para conectar los recursos mediante estructuras de datos. Sin embargo, los datos no son equivalentes a la inteligencia, ya que gran parte del trabajo de ciencia de datos y computación se realiza en fases posteriores, en una proliferación de herramientas SaaS, plataformas de análisis de datos y soluciones de ciencia de datos ciudadana. Peor aún, numerosas hojas de cálculo, presentaciones y otros documentos no estructurados suelen estar mal categorizados y carecen de capacidades de búsqueda unificadas.

Por eso Sushant Tripathi, vicepresidente y responsable de transformación para Norteamérica en TCS, explica que, “en lugar de mover y transformar datos sin cesar, necesitamos llevar la inteligencia directamente al lugar donde se encuentran los datos, creando un camino hacia datos listos para la empresa, con contexto, confianza y calidad incorporados en la fuente”, y añade: “Esta inteligencia organizativa conectada se integra en el tejido de la empresa, transformando información fragmentada en activos fiables y unificados, para que los agentes de IA puedan actuar con la velocidad y el contexto de sus mejores empleados, a escala empresarial”.

A pesar de los esfuerzos de TI por centralizar datos e inteligencia, la acumulación de deuda de datos crea riesgos cuando éstos se utilizan en agentes de IA.

Dan Yu, director de marketing de datos y análisis de SAP, es de la opinión de que “los datos preparados para la IA deben ir más allá del volumen y la precisión; deben estar unificados, ser fiables y estar regulados para fomentar una IA confiable. Con la arquitectura adecuada de estructura de datos empresariales, las organizaciones pueden preservar el contexto, mitigar sesgos e integrar la responsabilidad en cada capa de la IA. Esta base garantiza decisiones precisas y auditables, y permite que la IA se adapte y escale sobre productos de datos regulados y semánticamente ricos, proporcionando un valor empresarial duradero”.

De ahí esta recomendación: la mayoría de las organizaciones arrastrará una acumulación continua de operaciones y deuda de datos. Las organizaciones de TI orientadas a producto deben gestionar los activos de datos como productos y desarrollar hojas de ruta alineadas con sus prioridades de IA.

2. Garantizar el cumplimiento normativo y los estándares de seguridad

En materia de seguridad de los datos, Jack Berkowitz, director de datos de Securiti, aconseja comenzar respondiendo a preguntas clave: quién debe tener acceso a cualquier información que entre o salga de una aplicación de IA generativa, si el contenido incluye información confidencial y cómo se procesan o consultan esos datos. En su opinión, “a medida que avanzamos hacia una IA agencial, capaz de procesar y tomar decisiones de forma activa, la implementación de barreras estáticas o planas fracasará”.

Las barreras son necesarias para prevenir agentes de IA maliciosos y para limitar el uso de datos en ámbitos donde los riesgos superan los beneficios.

Joanne Friedman, directora ejecutiva de ReilAI, considera que “la mayoría de las empresas cuenta con una base de seguridad razonable —con un SDLC seguro, cifrado en reposo y en tránsito, control de acceso basado en roles, prevención de pérdida de datos y cumplimiento normativo como RGPD, HIPAA y CCPA—“. Y añade: “Eso es suficiente para la TI tradicional, pero insuficiente para la IA, donde los datos mutan rápidamente, los patrones de uso son emergentes y el comportamiento de los modelos debe ser gobernado, no adivinado”.

Mi recomendación: Joanne propone establecer cuatro pilares de datos preparados para los riesgos de la IA:

· Definir una lista de materiales de IA.

· Utilizar un marco de gestión de riesgos como NIST AI RMF o ISO 42001.

· Tratar las indicaciones de IA generativa como datos y protegerlas frente a la inyección de prompts, la fuga de datos y otros abusos.

· Documentar la IA mediante tarjetas de modelos y hojas de datos de los conjuntos de datos, incluyendo el uso previsto, las limitaciones y otras cualificaciones.

3. Definir metadatos contextuales y anotaciones

Los modelos de lenguaje de IA pueden alimentarse con múltiples documentos y fuentes de datos que contienen información contradictoria. Cuando la indicación de un empleado da lugar a una respuesta errónea o a una alucinación, este puede responder con aclaraciones para cerrar la brecha.

Sin embargo, cuando los agentes de IA están integrados en los flujos de trabajo de los empleados y en los recorridos de los clientes, lo que está en juego ante recomendaciones deficientes o acciones incorrectas es significativamente mayor. La precisión de un agente de IA mejora cuando los documentos y las fuentes de datos incluyen metadatos y anotaciones enriquecidos que indican cómo utilizar la información subyacente de forma adecuada.

Para Andreas Blumauer, vicepresidente sénior de crecimiento y marketing de Graphwise, “la IA debe ser capaz de comprender el significado que hay detrás de los datos añadiendo una capa semántica, que actúa como un diccionario universal para sus datos”. En su opinión, “esta capa utiliza etiquetas, metadatos y anotaciones coherentes para indicar a la IA lo que representa cada dato, vinculándolo directamente con los conceptos y preguntas del negocio. Aquí también se incluyen conocimientos específicos del sector o modelos de conocimiento del dominio, para que la IA comprenda el contexto empresarial”.

Recomendación: aproveche taxonomías y estándares de categorización específicos del sector y aplique estándares de metadatos como Dublin Core, Schema.org, PROV-O o XMP.

4. Revisar la significación estadística y los sesgos de los datos

Las encuestas son una herramienta fundamental de la investigación de mercado. Los investigadores definen preguntas y respuestas siguiendo mejores prácticas que minimizan la exposición a sesgos. Por ejemplo, preguntar a los empleados usuarios del servicio de asistencia: “¿Qué grado de satisfacción le proporciona la rapidez de respuesta de nuestro excelente equipo de soporte?” introduce sesgo, ya que términos como “excelente” o “rápido” implican un estándar subjetivo.

Otro reto consiste en garantizar un tamaño de muestra estadísticamente significativo para todos los segmentos. Resultaría engañoso, por ejemplo, informar sobre la opinión de los ejecutivos si solo un pequeño número de ellos respondió a la encuesta.

Al revisar datos para su uso en IA, es aún más crítico considerar la significación estadística y los sesgos, especialmente cuando estos datos sustentan la toma de decisiones de un agente de IA.

Shanti Greene, directora de ciencia de datos de AnswerRocket y profesora adjunta de la Universidad de Washington, explica que “los datos preparados para la IA requieren algo más que marcos de calidad convencionales; exigen rigor estadístico, auditorías de sesgos exhaustivas con probabilidades igualadas, pruebas de estabilidad distributiva y marcos de identificabilidad causal que permitan el razonamiento contrafactual”.

A su juicio, “las organizaciones que buscan resultados transformadores con modelos generativos sofisticados siguen estando, paradójicamente, limitadas por infraestructuras de datos con un volumen insuficiente para cubrir casos extremos. Los sistemas de IA continúan sujetos a fundamentos estadísticos, lo que demuestra que los modelos entrenados con datos deficientes pueden generar alucinaciones fiables que se disfrazan de inteligencia autorizada”.

Recomendación: comprender y documentar los sesgos de los datos debe ser una condición innegociable de la gobernanza. Entre las métricas de equidad más habituales se incluyen la paridad demográfica y la igualdad de oportunidades, mientras que las pruebas de valor p se utilizan para evaluar la significación estadística.

5. Comparar y revisar las métricas de calidad de los datos

Las métricas de calidad de los datos se centran en la precisión, integridad, coherencia, puntualidad, unicidad y validez de los conjuntos de datos. JG Chirapurath, presidente de DataPelago, recomienda realizar un seguimiento de los siguientes indicadores:

· Integridad de los datos: menos del 5% de las entradas de cualquier campo crítico pueden estar en blanco o faltar para considerarse completas.

· Desviación estadística: si una estadística clave varía más de un 2% respecto a los valores esperados, los datos se marcan para revisión humana.

· Índices de sesgo: si un grupo o segmento obtiene resultados que difieren en más de un 20% respecto a otro, los datos se marcan para revisión.

· Conjuntos de datos dorados: los resultados de la IA deben alcanzar una concordancia superior al 90% con la verdad fundamental verificada por humanos en subconjuntos de muestra.

Eso lleva a Rajeev Butani, presidente y director ejecutivo de MediaMint, a considerar que “las organizaciones pueden medir la preparación mediante métricas como tasas de valores nulos y duplicados, coherencia de esquemas y taxonomías, actualidad frente a los SLA y variaciones en la conciliación entre registros contabilizados, entregados y facturados. El sesgo y el riesgo pueden evaluarse mediante la cobertura del consentimiento, las puntuaciones de exposición de datos personales identificables (PII) y las comprobaciones de retención o eliminación”.

Recomendación: la selección de métricas de calidad y el cálculo de una puntuación compuesta de salud de los datos son funciones habituales de los catálogos de datos y ayudan a generar confianza en el uso de conjuntos de datos para IA y toma de decisiones. Los responsables de la gobernanza deben comunicar los umbrales objetivo y establecer procesos de revisión para los conjuntos que no los cumplan.

6. Establecer la clasificación, el linaje y la procedencia de los datos

Más allá de la calidad, las prácticas clave de gobernanza incluyen la clasificación de datos para la protección de la propiedad intelectual y la privacidad, así como el establecimiento del linaje y la procedencia.

Matt Carroll, fundador y director ejecutivo de Immuta, explica que “el futuro pasa por gobernar los agentes de IA como identidades no humanas, registradas, responsables y sujetas a la misma disciplina que las personas dentro de un sistema de identidad”, y añade: “Esto requiere clasificar la información por niveles de riesgo, crear puntos de control donde la supervisión humana sea esencial y permitir que las interacciones de bajo riesgo fluyan libremente”.

Geoff Webb, vicepresidente de marketing de productos y carteras de Conga, destaca dos métricas clave que deben evaluarse antes de confiar en los resultados de cualquier flujo de trabajo de agentes:

· Procedencia de los datos: hace referencia al origen de los datos. ¿Es confiable la fuente y cómo pasaron a formar parte del conjunto utilizado?

· Cronología de los datos: se refiere a su antigüedad. Debe evitarse entrenar modelos con datos que ya no sean relevantes para los objetivos actuales o que reflejen prácticas obsoletas, procesos no conformes o malas prácticas del pasado.

· Recomendación: las industrias reguladas cuentan con una larga experiencia en la maduración de la gobernanza de datos. Para las organizaciones rezagadas en estas disciplinas, la clasificación de datos constituye un punto de partida esencial.

7. Crear bucles de retroalimentación con intervención humana

A medida que las organizaciones incorporan más conjuntos de datos a la IA, resulta esencial mantener una validación continua de los modelos de lenguaje y de la precisión de los agentes, realizada por expertos en la materia y usuarios finales. Las operaciones de datos deben extender la retroalimentación sobre la IA a las fuentes subyacentes para priorizar mejoras e identificar áreas que deban enriquecerse con nuevos conjuntos de datos.

“En nuestros centros de atención telefónica no solo escuchamos las interacciones con los clientes, sino que también trasladamos esos datos cualitativos a los equipos de ingeniería para rediseñar las experiencias”, explica Ryan Downing, vicepresidente y director de informática de soluciones empresariales en Principal Financial Group. Y apostilla: “Medimos cómo interactúan las personas con las soluciones basadas en IA y cómo esas interacciones se correlacionan con comportamientos posteriores, por ejemplo, si alguien todavía necesitó llamarnos tras utilizar la aplicación móvil”.

Recomendación: los conjuntos de datos no estructurados y aquellos que recogen opiniones y sentimientos humanos son más propensos a variaciones que los métodos estadísticos no siempre validan fácilmente. Cuando los usuarios informan de respuestas extrañas de modelos de IA basados en estos datos, es esencial rastrear las causas raíz en los propios datos, especialmente porque muchos modelos de IA no son totalmente explicables.

Automatizar una lista de verificación de la preparación de los datos

Guy Adams, director técnico de DataOps.live, es de los que cree que “los datos preparados para la IA no son solo datos de calidad, sino datos que se han transformado en un producto gestionado y entregado con el contexto adecuado para que los sistemas de IA actuales puedan confiar en ellos y reutilizarlos incluso para casos de uso que aún no hemos imaginado”.

Las organizaciones que invierten de forma intensiva en agentes y capacidades de IA deben asegurarse primero de que sus datos estén listos y, a continuación, automatizar una lista de verificación para su validación continua. El nivel de exigencia en la preparación de datos debe aumentar cuando estos se utilicen en flujos de trabajo críticos y en experiencias de cliente que impacten directamente en los ingresos y a gran escala.

Read More from This Article: Cómo garantizar que los datos de su empresa estén “preparados para la IA”
Source: News