Mientras los CIO y otros líderes tecnológicos se enfrentan a la presión de adoptar la inteligencia artificial (IA), muchas organizaciones siguen saltándose un primer paso crucial para el éxito de las implantaciones: poner en orden sus datos.
A pesar de las advertencias de hace al menos seis años, muchos directores de Sistemas de la Información no recopilan ni organizan la enorme cantidad de datos que sus organizaciones generan continuamente, según algunos proveedores de gestión de datos. Menos de la mitad de las organizaciones cuentan con un proceso coherente de gestión de datos antes de poner en marcha proyectos de IA, según los responsables de TI de Databricks y Astera Software, ambas del sector de la gestión de datos.
Según Naveen Rao, vicepresidente de Inteligencia Artificial de Databricks, un proveedor de gestión de datos que sigue apareciendo en proyectos de IA Artificial de éxito, sólo un 20% de las empresas cuentan con estrategias de datos lo suficientemente maduras como para sacar el máximo partido de la mayoría de las herramientas de IA. Algunos proyectos pequeños de IA pueden funcionar basándose en una cantidad limitada de datos de la empresa, o datos de fuera de la empresa, pero muchos despliegues exitosos de IA requieren datos internos completos, dice.
“Gran parte de lo que hacemos hoy en día cuando hablamos con los clientes sobre IA generativa es en realidad nivelar lo que es posible”, añade. “Si en realidad no tienen sus datos en orden, no van a tener el impacto que quieren”.
Presión por lanzarse a la piscina
Mientras tanto, menos de la mitad de las organizaciones cuentan con estrategias de datos para apoyar cualquier tipo de despliegue de IA, añade Jay Mishra, COO de Astera Software, otro proveedor de gestión de datos. Algunas organizaciones tienen poco concepto de la gestión de datos, pero aun así están lanzando proyectos de IA.
“Hay mucha presión de los inversores, del mercado, para entrar en la IA”, defiende. “Empiezan con algo, y después de pasar unos meses se dan cuenta de que no ha dado los resultados deseados”.
Si la infraestructura informática y la potencia de cálculo constituyen el motor de la IA, los datos son el combustible, añade Jeff Boudreau, director de IA de Dell Technologies. “Incluso las aplicaciones de IA más sofisticadas dependen de datos de calidad para funcionar”, afirma. “Los datos son el elemento diferenciador. Malos datos es igual a mala IA”.
Las observaciones sobre la madurez de los datos de Rao y Mishra coinciden, en cierto modo, con una encuesta reciente de Gartner. El 61% de los directores de datos y análisis encuestados coincidieron en que ChatGPT y otras disrupciones del mercado tecnológico les obligaron a evolucionar o replantearse sus estrategias de datos y análisis.
Sin embargo, el 78% de los CDAO afirmaron que sus estrategias de datos y análisis evolucionaron lo suficiente durante 2023 como para respaldar la innovación. Es probable, sin embargo, que las empresas con funciones de CDAO o director de datos estén por delante de la curva de gestión de datos.
Problemas comunes con los datos
Los retos de la gestión de datos se dividen en cuatro categorías:
En primer lugar, los datos existen en silos. Los datos del equipo de marketing pueden residir en una ubicación diferente, con diferentes reglas de acceso, que los datos del equipo de ingeniería.
En segundo lugar, la mayoría de las organizaciones han generado toneladas de datos, y cada día crean más. Sin un plan y un sistema de gestión de datos, los datos antiguos están enterrados en carpetas en un rincón oscuro de un servidor antiguo, y los datos nuevos no se catalogan ni organizan.
Los datos son incompletos, inexactos e incoherentes.
Por último, un gran porcentaje de los datos no están estructurados y, por tanto, no son fáciles de organizar. Los datos cruciales residen en cientos de correos electrónicos enviados y recibidos cada día, en hojas de cálculo, en presentaciones de PowerPoint, en vídeos, en imágenes, en informes con gráficos, en documentos de texto, en páginas web, en órdenes de compra, en facturas de servicios públicos y en PDF.
Los documentos de texto, a menudo almacenados en múltiples ubicaciones de una organización, suelen contener una gran cantidad de información, afirma Mishra, de Astera. Un dato importante puede estar enterrado en un gráfico de la página 5 de un documento de 20 páginas, o en un informe de 100 páginas de un analista de Wall Street.
“Muchos de los datos producidos por las aplicaciones habituales o por los usuarios de la empresa permanecen en documentos, y los documentos siguen siendo la principal forma de comunicación”, considera. “Esos datos fluyen libremente y no residen en un único lugar. Es un gran reto y una gran oportunidad”.
Más datos no siempre producen mejor IA
Una idea errónea sobre el volumen de datos que poseen las empresas es que alimentar a los modelos de IA con más datos crea mejores resultados de IA, añade Mishra. Aunque algunas herramientas de IA exigen grandes volúmenes de datos, la calidad es más importante.
“Los datos que no están curados van a ser la base de resultados erróneos”, afirma. “La calidad de los datos lo determina todo”.
Pero los usuarios de IA no deberían descartar la demanda de datos de los grandes modelos del lenguaje (LLM), dice Bryan Eckle, CTO de cBEYONData, un proveedor de servicios profesionales para agencias gubernamentales estadounidenses.
“La IA está muy, muy ávida de datos”, afirma Eckle, que evalúa las herramientas de IA para los clientes. “Y los datos deben ser precisos, oportunos, rápidos y abundantes”.
Más allá de las cuatro grandes áreas de problemas de gestión de datos, las organizaciones también luchan con una única fuente de verdad en sus datos, dice Eckle. ¿Cuál de las cinco versiones de un PDF de especificaciones de producto que circulan por una organización es la correcta? ¿Su chatbot de atención al cliente tiene acceso a las cinco versiones?
Centrarse en la calidad y la estandarización
Para aquellas organizaciones que luchan por limpiar sus datos, Boudreau de Dell recomienda centrarse en los procesos de gestión de datos y la gobernanza que consideran la privacidad, la estandarización, la calidad y la integración.
Incluso antes de que las organizaciones empiecen a limpiar y organizar sus datos, Eckle recomienda que piensen en sus objetivos para los datos.
“Se puede retroceder y empezar con: ‘¿Qué tipo de preguntas queremos poder responder?’”, dice. “A partir de ahí, ¿cuáles son los elementos de datos subyacentes que necesitamos para responder a esas preguntas? Y a partir de ahí, ‘¿Cuál es la fuente de la verdad?’”.
La limpieza de los datos a menudo se ignora en los proyectos de IA porque no es la parte llamativa, añade Eckle. Pero una gran parte de un proyecto de IA, el 80% o más, consiste en limpiar los datos.
“Es una especie de trabajo pesado”, confiesa. “La mayor parte del tiempo en estos proyectos se invierte en asegurarse de que tienes los datos de entrenamiento adecuados para alimentar estos modelos de aprendizaje automático que saben cómo reconocer los patrones que existen dentro de los datos”.
Los usuarios de IA también deben reconocer que la limpieza de los datos no es un proyecto de una sola vez, añade Eckle. Si organizaste tus datos internos hace tres años, estás desfasado. Y los datos no provienen solo de los usuarios internos; la mayoría de las organizaciones reciben constantemente datos de socios, proveedores y otras fuentes.
“Es un viaje, ¿no?”, pregunta retóricamente. “Siempre vas a estar trayendo fuentes de datos adicionales que pueden proporcionar una visión, y siempre vas a querer monitorear la salud de esa tubería de datos”.
Pequeños pasos
Mishra recomienda que las organizaciones comiencen poco a poco cuando desplieguen proyectos de IA, tal vez centrándose en un caso de uso de IA en una sola unidad de negocio. Organizar los datos que posee una unidad de negocio es más fácil que reunir terabytes de datos de toda la organización.
“Encuentre un tipo específico de datos y limpie los datos en una iteración”, dice. “Mira un subconjunto de tus datos que esté curado y luego comienza tus esfuerzos de IA en eso. No va a ser tanto esfuerzo en comparación con traer todos los datos”.
Read More from This Article: ¿Están sus datos preparados para la IA? Los CIO carecen de respuestas
Source: News