Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Tres cosas que hay que hacer bien en la gestión de datos para proyectos de IA generativa

Según Kari Briski, vicepresidente de Modelos, Software y Servicios de IA en Nvidia, implementar con éxito la inteligencia artificial (IA) generativa depende de la gestión eficaz de los datos y de evaluar cómo los diferentes modelos trabajan juntos para servir a un caso de uso específico. Mientras que algunas organizaciones de élite como Nvidia utilizan la IA generativa para cosas como el diseño de nuevos chips, la mayoría se ha decantado por casos de uso menos sofisticados que emplean modelos más sencillos, y pueden centrarse en lograr la excelencia en la gestión de datos.

Doug Shannon, experto en automatización e IA y embajador de la comunidad de colegas de Gartner, afirma que la gran mayoría de las empresas se centran ahora en dos categorías de casos de uso que tienen más probabilidades de ofrecer un ROI positivo. Una es la gestión del conocimiento (KM, por sus siglas en inglés), que consiste en recopilar información empresarial, categorizarla y alimentar un modelo que permita a los usuarios consultarla. Y el otro son los modelos de generación aumentada de recuperación (RAG, por sus siglas en inglés), en los que trozos de datos de una fuente más amplia se vectorizan para permitir a los usuarios “hablar” con los datos. Por ejemplo, pueden tomar un documento de mil páginas, introducirlo en el modelo y hacerle preguntas al respecto.

“En estos dos tipos de casos de uso, la empresa depende de sus propios datos, y cuesta dinero aprovechar tu propia información”, afirma Shannon. “Las pequeñas y medianas empresas tienen una gran ventaja en comparación con las grandes empresas cargadas con procesos, herramientas, aplicaciones y personas legacy. Todos nos estorbamos a veces cuando nos aferramos a viejos hábitos”.

La gestión de datos, cuando se hace mal, da lugar tanto a una disminución de los beneficios como a costes adicionales. Las alucinaciones, por ejemplo, causadas por datos erróneos, requieren mucho tiempo y dinero extra para solucionarlas, y alejan a los usuarios de las herramientas. Pero algunos responsables de TI lo están haciendo bien porque se centran en tres aspectos clave.

Recopilar, filtrar y categorizar los datos

El primero es una serie de procesos -recopilación, filtrado y categorización de datos- que pueden llevar varios meses para los modelos KM o RAG. Los datos estructurados son relativamente fáciles, pero los no estructurados, aunque mucho más difíciles de categorizar, son los más valiosos. “Hay que saber qué son los datos, porque sólo después de definirlos y ponerlos en una taxonomía se puede hacer algo con ellos”, afirma Shannon.

Nvidia proporciona herramientas de código abierto y software empresarial para el filtrado, que puede configurarse para eliminar elementos como la información de identificación personal (PII) o la información tóxica para un dominio determinado. Los kits de herramientas incluyen clasificadores que permiten a las empresas establecer umbrales. “También combinamos datos de distintas fuentes”, explica Briski.

Durante el proceso de combinación, los datos pueden reordenarse para cambiar las cantidades relativas. Algunas empresas, por ejemplo, pueden querer que el 30% de sus datos procedan de personas de entre 18 y 25 años, y sólo el 15% de mayores de 65 años. O puede que quieran que el 20% de sus datos de formación procedan del servicio de atención al cliente y el 25% de preventa. Durante el proceso de combinación, también puede eliminarse la información duplicada.

La información también debe filtrarse en función de su calidad. Según Briski, se trata de un proceso iterativo que implica diversas tareas para llegar a los datos de mayor calidad, es decir, aquellas señales que mejoran la precisión de un modelo. Y la calidad es relativa al contexto del dominio en el que nos encontremos, de modo que una respuesta precisa para las finanzas, por ejemplo, puede ser completamente errónea para la sanidad. “Como resultado del filtrado de calidad, encontramos las señales adecuadas y generamos sintéticamente tipos de datos similares para aumentar la importancia de esa señal”, afirma.

Briski también señala la importancia del control de versiones de los conjuntos de datos utilizados para entrenar la IA. Con diferentes personas filtrando y aumentando los datos, es necesario rastrear quién hace qué cambios y por qué, y es necesario saber qué versión del conjunto de datos se utilizó para entrenar un modelo determinado.

Y con todos los datos que una empresa tiene que gestionar, es esencial automatizar los procesos de recopilación, filtrado y categorización de datos. “Muchas organizaciones disponen de almacenes de datos e informes con datos estructurados, y muchas han adoptado los data lakes y el data fabric“, afirma Klara Jelinkova, vicepresidenta y directora de Informática de la Universidad de Harvard. “Pero a medida que los conjuntos de datos crecen con la IA generativa, asegurarse de que los datos son de alta calidad y coherentes se convierte en un reto, especialmente dada la mayor velocidad. Contar con comprobaciones de datos automatizadas y escalables es clave”.

Perfeccionar la gobernanza de datos y el cumplimiento

El segundo aspecto de la gestión de datos en el que hay que centrarse es la gobernanza de datos y el cumplimiento, claramente ilustrado por los experimentos llevados a cabo en Harvard. El año pasado, el departamento de TI puso en marcha el AI Sandbox, un entorno de IA generativa desarrollado internamente y puesto a disposición de su comunidad de usuarios sin coste alguno. El sandbox ofrece acceso a varios LLM diferentes para que la gente pueda experimentar con una amplia gama de herramientas.

El departamento de TI de Harvard también organizó programas de innovación, en los que se presentaban proyectos que utilizaban la IA generativa. Las propuestas tenían que incluir algo sobre el rendimiento esperado de la inversión, que no tenía por qué ser necesariamente económico, sino que podía consistir en una combinación de otros beneficios, como nuevos conocimientos y descubrimientos, o procesos mejorados. Si el proyecto era aceptado, se le concedía una pequeña subvención inicial, y los proyectos que demostraban los beneficios esperados podían ampliarse.

Según Jelinkova, uno de los aspectos importantes de la gestión de datos en relación con los proyectos de IA generativa es echar un segundo vistazo a la gobernanza de los datos y pensar en lo que hay que cambiar. “Empezamos con unas directrices genéricas sobre el uso de la IA para asegurarnos de que nuestros experimentos estuvieran protegidos”, explica. “Hemos estado haciendo gobierno de datos durante mucho tiempo, pero cuando empiezas a hablar de tuberías de datos automatizadas, rápidamente se hace evidente que necesitas repensar los modelos más antiguos de gobierno de datos que se construyeron más en torno a los datos estructurados”.

El cumplimiento es otra área importante de atención. Como empresa global que está pensando en ampliar algunos de sus proyectos de IA, Harvard no pierde de vista la evolución de los entornos normativos en diferentes partes del mundo. Tiene un grupo de trabajo activo dedicado a seguir y comprender la Ley de IA de la Unión Europea (UE), y antes de que sus casos de uso entren en producción, pasan por un proceso para asegurarse de que se satisfacen todas las obligaciones de cumplimiento.

“Cuando se trabaja con nuevas tecnologías, se está en la vanguardia y se corre el riesgo de que el panorama legislativo cambie con el tiempo”, afirma. “Para nosotros, todo forma parte de la gobernanza de los datos. Necesitas tener un marco de cumplimiento que te permita reelaborar las cosas que has hecho antes a medida que cambia el panorama legislativo“.

Priorizar la privacidad de los datos y la protección de la propiedad intelectual

En tercer lugar está la privacidad de los datos y la protección de la propiedad intelectual (IP, por sus siglas en inglés). Para la mayoría de las organizaciones, la gestión de datos está intrínsecamente ligada a la privacidad. Necesitan asegurarse de que no se están exponiendo a riesgos. “Hay que filtrar, normalizar, aumentar y anotar los datos”, explica Jelinkova. “Pero también hay que ocuparse de la seguridad y la privacidad de los datos, y proteger la propia propiedad intelectual”.

A medida que profundizan en sus datos, muchas empresas descubren que no entienden el control de acceso basado en roles (RBAC, por sus siglas en inglés) asociado a algunos de ellos, si es que había alguno. Como resultado, no tienen ni idea de qué datos se han compartido dentro, o incluso fuera, de la empresa. Ahí es donde las directrices y los guardarraíles demuestran su importancia, y las razones por las que deben ponerse en marcha con suficiente antelación.

Jelinkova afirma que Harvard es muy proactiva en lo que respecta a los principios de privacidad, y que cuenta con un completo programa de seguridad de datos que incluye la clasificación de datos y orientación sobre qué datos pueden utilizarse para diferentes tipos de IA. “Tenemos muy en cuenta la propiedad intelectual”, afirma. “Cuando recopilamos datos para construir un tutor de IA, tenemos que asegurarnos de que tenemos todos los derechos de IP de todos los datos con los que vamos a alimentarlo”.

Y como, al igual que la mayoría de las universidades, Harvard crea mucha de su propia IP, tiene que asegurarse de protegerla también. No es difícil hacerlo con herramientas de IA creadas internamente. Pero cuando se utilizan modelos públicos, hay que tomar medidas adicionales para que no utilicen tu valiosa información, directa o indirectamente, en beneficio comercial. Para estar seguros, Harvard establece protecciones contractuales con terceros proveedores de herramientas de IA para garantizar la seguridad y privacidad de sus datos.

“Cuando se trata de utilizar tus propios datos en modelos fundacionales muy grandes, sigue habiendo muchos malentendidos y poca transparencia sobre lo que algunas de las herramientas hacen con tus datos”, dice Shannon. “Azure se apoya en el uso de OpenAI, así que incluso cuando dicen que no toman datos de los usuarios y te dan una larga lista de todas las cosas de las que estás protegido, sigue siendo una caja negra”.


Read More from This Article: Tres cosas que hay que hacer bien en la gestión de datos para proyectos de IA generativa
Source: News

Category: NewsOctober 3, 2024
Tags: art

Post navigation

PreviousPrevious post:Suncor Energy derives business value through business AI and automationNextNext post:AI on the mainframe? IBM may be onto something

Related posts

휴먼컨설팅그룹, HR 솔루션 ‘휴넬’ 업그레이드 발표
May 9, 2025
Epicor expands AI offerings, launches new green initiative
May 9, 2025
MS도 합류··· 구글의 A2A 프로토콜, AI 에이전트 분야의 공용어 될까?
May 9, 2025
오픈AI, 아시아 4국에 데이터 레지던시 도입··· 한국 기업 데이터는 한국 서버에 저장
May 9, 2025
SAS supercharges Viya platform with AI agents, copilots, and synthetic data tools
May 8, 2025
IBM aims to set industry standard for enterprise AI with ITBench SaaS launch
May 8, 2025
Recent Posts
  • 휴먼컨설팅그룹, HR 솔루션 ‘휴넬’ 업그레이드 발표
  • Epicor expands AI offerings, launches new green initiative
  • MS도 합류··· 구글의 A2A 프로토콜, AI 에이전트 분야의 공용어 될까?
  • 오픈AI, 아시아 4국에 데이터 레지던시 도입··· 한국 기업 데이터는 한국 서버에 저장
  • SAS supercharges Viya platform with AI agents, copilots, and synthetic data tools
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.