Según Kari Briski, vicepresidente de Modelos, Software y Servicios de IA en Nvidia, implementar con éxito la inteligencia artificial (IA) generativa depende de la gestión eficaz de los datos y de evaluar cómo los diferentes modelos trabajan juntos para servir a un caso de uso específico. Mientras que algunas organizaciones de élite como Nvidia utilizan la IA generativa para cosas como el diseño de nuevos chips, la mayoría se ha decantado por casos de uso menos sofisticados que emplean modelos más sencillos, y pueden centrarse en lograr la excelencia en la gestión de datos.
Doug Shannon, experto en automatización e IA y embajador de la comunidad de colegas de Gartner, afirma que la gran mayoría de las empresas se centran ahora en dos categorías de casos de uso que tienen más probabilidades de ofrecer un ROI positivo. Una es la gestión del conocimiento (KM, por sus siglas en inglés), que consiste en recopilar información empresarial, categorizarla y alimentar un modelo que permita a los usuarios consultarla. Y el otro son los modelos de generación aumentada de recuperación (RAG, por sus siglas en inglés), en los que trozos de datos de una fuente más amplia se vectorizan para permitir a los usuarios “hablar” con los datos. Por ejemplo, pueden tomar un documento de mil páginas, introducirlo en el modelo y hacerle preguntas al respecto.
“En estos dos tipos de casos de uso, la empresa depende de sus propios datos, y cuesta dinero aprovechar tu propia información”, afirma Shannon. “Las pequeñas y medianas empresas tienen una gran ventaja en comparación con las grandes empresas cargadas con procesos, herramientas, aplicaciones y personas legacy. Todos nos estorbamos a veces cuando nos aferramos a viejos hábitos”.
La gestión de datos, cuando se hace mal, da lugar tanto a una disminución de los beneficios como a costes adicionales. Las alucinaciones, por ejemplo, causadas por datos erróneos, requieren mucho tiempo y dinero extra para solucionarlas, y alejan a los usuarios de las herramientas. Pero algunos responsables de TI lo están haciendo bien porque se centran en tres aspectos clave.
Recopilar, filtrar y categorizar los datos
El primero es una serie de procesos -recopilación, filtrado y categorización de datos- que pueden llevar varios meses para los modelos KM o RAG. Los datos estructurados son relativamente fáciles, pero los no estructurados, aunque mucho más difíciles de categorizar, son los más valiosos. “Hay que saber qué son los datos, porque sólo después de definirlos y ponerlos en una taxonomía se puede hacer algo con ellos”, afirma Shannon.
Nvidia proporciona herramientas de código abierto y software empresarial para el filtrado, que puede configurarse para eliminar elementos como la información de identificación personal (PII) o la información tóxica para un dominio determinado. Los kits de herramientas incluyen clasificadores que permiten a las empresas establecer umbrales. “También combinamos datos de distintas fuentes”, explica Briski.
Durante el proceso de combinación, los datos pueden reordenarse para cambiar las cantidades relativas. Algunas empresas, por ejemplo, pueden querer que el 30% de sus datos procedan de personas de entre 18 y 25 años, y sólo el 15% de mayores de 65 años. O puede que quieran que el 20% de sus datos de formación procedan del servicio de atención al cliente y el 25% de preventa. Durante el proceso de combinación, también puede eliminarse la información duplicada.
La información también debe filtrarse en función de su calidad. Según Briski, se trata de un proceso iterativo que implica diversas tareas para llegar a los datos de mayor calidad, es decir, aquellas señales que mejoran la precisión de un modelo. Y la calidad es relativa al contexto del dominio en el que nos encontremos, de modo que una respuesta precisa para las finanzas, por ejemplo, puede ser completamente errónea para la sanidad. “Como resultado del filtrado de calidad, encontramos las señales adecuadas y generamos sintéticamente tipos de datos similares para aumentar la importancia de esa señal”, afirma.
Briski también señala la importancia del control de versiones de los conjuntos de datos utilizados para entrenar la IA. Con diferentes personas filtrando y aumentando los datos, es necesario rastrear quién hace qué cambios y por qué, y es necesario saber qué versión del conjunto de datos se utilizó para entrenar un modelo determinado.
Y con todos los datos que una empresa tiene que gestionar, es esencial automatizar los procesos de recopilación, filtrado y categorización de datos. “Muchas organizaciones disponen de almacenes de datos e informes con datos estructurados, y muchas han adoptado los data lakes y el data fabric“, afirma Klara Jelinkova, vicepresidenta y directora de Informática de la Universidad de Harvard. “Pero a medida que los conjuntos de datos crecen con la IA generativa, asegurarse de que los datos son de alta calidad y coherentes se convierte en un reto, especialmente dada la mayor velocidad. Contar con comprobaciones de datos automatizadas y escalables es clave”.
Perfeccionar la gobernanza de datos y el cumplimiento
El segundo aspecto de la gestión de datos en el que hay que centrarse es la gobernanza de datos y el cumplimiento, claramente ilustrado por los experimentos llevados a cabo en Harvard. El año pasado, el departamento de TI puso en marcha el AI Sandbox, un entorno de IA generativa desarrollado internamente y puesto a disposición de su comunidad de usuarios sin coste alguno. El sandbox ofrece acceso a varios LLM diferentes para que la gente pueda experimentar con una amplia gama de herramientas.
El departamento de TI de Harvard también organizó programas de innovación, en los que se presentaban proyectos que utilizaban la IA generativa. Las propuestas tenían que incluir algo sobre el rendimiento esperado de la inversión, que no tenía por qué ser necesariamente económico, sino que podía consistir en una combinación de otros beneficios, como nuevos conocimientos y descubrimientos, o procesos mejorados. Si el proyecto era aceptado, se le concedía una pequeña subvención inicial, y los proyectos que demostraban los beneficios esperados podían ampliarse.
Según Jelinkova, uno de los aspectos importantes de la gestión de datos en relación con los proyectos de IA generativa es echar un segundo vistazo a la gobernanza de los datos y pensar en lo que hay que cambiar. “Empezamos con unas directrices genéricas sobre el uso de la IA para asegurarnos de que nuestros experimentos estuvieran protegidos”, explica. “Hemos estado haciendo gobierno de datos durante mucho tiempo, pero cuando empiezas a hablar de tuberías de datos automatizadas, rápidamente se hace evidente que necesitas repensar los modelos más antiguos de gobierno de datos que se construyeron más en torno a los datos estructurados”.
El cumplimiento es otra área importante de atención. Como empresa global que está pensando en ampliar algunos de sus proyectos de IA, Harvard no pierde de vista la evolución de los entornos normativos en diferentes partes del mundo. Tiene un grupo de trabajo activo dedicado a seguir y comprender la Ley de IA de la Unión Europea (UE), y antes de que sus casos de uso entren en producción, pasan por un proceso para asegurarse de que se satisfacen todas las obligaciones de cumplimiento.
“Cuando se trabaja con nuevas tecnologías, se está en la vanguardia y se corre el riesgo de que el panorama legislativo cambie con el tiempo”, afirma. “Para nosotros, todo forma parte de la gobernanza de los datos. Necesitas tener un marco de cumplimiento que te permita reelaborar las cosas que has hecho antes a medida que cambia el panorama legislativo“.
Priorizar la privacidad de los datos y la protección de la propiedad intelectual
En tercer lugar está la privacidad de los datos y la protección de la propiedad intelectual (IP, por sus siglas en inglés). Para la mayoría de las organizaciones, la gestión de datos está intrínsecamente ligada a la privacidad. Necesitan asegurarse de que no se están exponiendo a riesgos. “Hay que filtrar, normalizar, aumentar y anotar los datos”, explica Jelinkova. “Pero también hay que ocuparse de la seguridad y la privacidad de los datos, y proteger la propia propiedad intelectual”.
A medida que profundizan en sus datos, muchas empresas descubren que no entienden el control de acceso basado en roles (RBAC, por sus siglas en inglés) asociado a algunos de ellos, si es que había alguno. Como resultado, no tienen ni idea de qué datos se han compartido dentro, o incluso fuera, de la empresa. Ahí es donde las directrices y los guardarraíles demuestran su importancia, y las razones por las que deben ponerse en marcha con suficiente antelación.
Jelinkova afirma que Harvard es muy proactiva en lo que respecta a los principios de privacidad, y que cuenta con un completo programa de seguridad de datos que incluye la clasificación de datos y orientación sobre qué datos pueden utilizarse para diferentes tipos de IA. “Tenemos muy en cuenta la propiedad intelectual”, afirma. “Cuando recopilamos datos para construir un tutor de IA, tenemos que asegurarnos de que tenemos todos los derechos de IP de todos los datos con los que vamos a alimentarlo”.
Y como, al igual que la mayoría de las universidades, Harvard crea mucha de su propia IP, tiene que asegurarse de protegerla también. No es difícil hacerlo con herramientas de IA creadas internamente. Pero cuando se utilizan modelos públicos, hay que tomar medidas adicionales para que no utilicen tu valiosa información, directa o indirectamente, en beneficio comercial. Para estar seguros, Harvard establece protecciones contractuales con terceros proveedores de herramientas de IA para garantizar la seguridad y privacidad de sus datos.
“Cuando se trata de utilizar tus propios datos en modelos fundacionales muy grandes, sigue habiendo muchos malentendidos y poca transparencia sobre lo que algunas de las herramientas hacen con tus datos”, dice Shannon. “Azure se apoya en el uso de OpenAI, así que incluso cuando dicen que no toman datos de los usuarios y te dan una larga lista de todas las cosas de las que estás protegido, sigue siendo una caja negra”.
Read More from This Article: Tres cosas que hay que hacer bien en la gestión de datos para proyectos de IA generativa
Source: News