June 26, 2024 - Tiatra, LLC

オープンソースの生成AIで注意すべき10のこと

NewsBy DeveloperTiatra June 26, 2024

最近では、誰もがAIモデルを作成できるようになった。トレーニングデータやプログラミングスキルがなくても、お気に入りのオープンソースモデルを入手し、微調整を加えて、新しい名前でリリースすることができる。 4月に発表されたスタンフォード大学のAIインデックスレポートによると、2023年には149の基盤モデルがリリースされ、その3分の2はオープンソースだった。そして、そのバリエーションの数は途方もない。Hugging Faceは現在、テキスト生成だけで8万以上のLLMを追跡しており、幸いにも、さまざまなベンチマークでスコアを基準にモデルを素早く並べ替えることができるリーダーボードがある。そして、これらのモデルは、大手企業の商用モデルには及ばないものの、急速に改善が進んでいる。 EYアメリカズでジェネレーティブAIをリードするデビッド・グアレラ氏によると、オープンソースのジェネレーティブAIを検討する際は、リーダーボードが参考になる。特にHugging Faceはベンチマークの面で優れた仕事をしているという。「しかし、これらのモデルを実際に試してみる価値を過小評価してはならない」と彼は言う。「オープンソースなので、簡単に試したり入れ替えたりできるからだ。そして、オープンソースモデルとクローズドな商用代替モデルとの性能差は縮まりつつある」と彼は付け加える。「オープンソースは素晴らしい」と、Uber Freight のエンジニアリング部門責任者、Val Marchevsky 氏は付け加える。「私はオープンソースに非常に価値があると感じている」と。オープンソースモデルは、プロプライエタリモデルに性能で追いついているだけでなく、クローズドソースには真似できない透明性を提供するものもあると同氏は言う。「一部のオープンソースモデルでは、推論に何が使われ、何が使われていないかがわかる」と同氏は付け加える。「監査性は、幻覚を防ぐために重要である」もちろん、価格面でのメリットもある。「もし、たまたま容量に余裕のあるデータセンターをお持ちなら、なぜ他者に支払う必要があるのか？」と彼は言う。企業はすでにオープンソースコードの使用に精通している。2月に発表されたシノプシスのオープンソースセキュリティおよびリスク分析によると、すべての商用コードベースの96%にオープンソースコンポーネントが含まれている。こうした経験から、企業は、適切なライセンスを取得したコードを使用するために何をすべきか、脆弱性を確認する方法、そしてすべてを常に最新の状態に保つ方法を知っているはずだ。しかし、これらのルールやベストプラクティスの中には、企業が見落としがちな微妙なニュアンスがあるものもある。以下は、その主なものである。 1. 奇妙な新しいライセンス条項さまざまなオープンソースライセンスの種類は、その概要だけでも複雑である。そのプロジェクトは商業利用に安全なのか、それとも非商業的な実装にのみ安全なのか？改変して配布することは可能か？プロプライエタリなコードベースに安全に組み込むことは可能か？さて、生成AIが登場したことで、いくつかの新たな問題が生じている。まず、非常に緩やかな定義のもとでのみオープンソースとなる、新しいライセンスの種類がある。例えば、Llama ライセンスがある。 Llama モデルのファミリーは、オープンソースの LLM の中でも最高のものの一つだが、Meta はこれを「モデルへのオープンアクセスと、潜在的な誤用に対処するための責任と保護措置のバランスがとれたカスタムメイドの商用ライセンス」と公式に説明している。企業は、モデルを商業的に使用し、開発者がベースとなる Llama モデルに追加作業を加えて作成・配布することは認められているが、Llama 派生品でない限り、Llama の成果物を使用して他の LLM を改善することは認められていない。また、企業またはその関連会社での月間ユーザー数が 700 人を超える場合、Meta が許可するかどうかは不明だが、ライセンスを申請しなければならない。Lama 3を使用する場合は、「Built with Llama 3」という文言を目立つ場所に表示しなければならない。同様に、Appleは「Apple Sample Code License」のもとでOpenELMをリリースした。これは、この機会のために考案されたもので、著作権許可のみをカバーし、特許権は除外されている。 AppleもMetaも、一般的に受け入れられているオープンソースライセンスは使用していないが、コード自体はオープンである。Appleは実際にコードだけでなく、モデルの重み、トレーニングデータセット、トレーニングログ、事前トレーニング構成も公開している。これが、オープンソースライセンスのもう1つの側面につながる。従来のオープンソースソフトウェアは、まさにコードそのものである。オープンソースであるということは、それが何をしているのか、潜在的な問題や脆弱性がないかどうかを確認できるということだ。しかし、生成AIは単なるコードではない。トレーニングデータ、モデルウェイト、微調整なども含まれる。これらのすべてが、モデルの仕組みを理解し、潜在的な偏りを特定するために不可欠である。例えば、地球は平らであるという陰謀論のアーカイブでトレーニングされたモデルは、科学的な質問に対する回答が苦手になるだろうし、北朝鮮のハッカーによって微調整されたモデルは、マルウェアを正しく識別できない可能性がある。では、オープンソースのLLMは、これらの情報をすべて公開しているのだろうか？それはモデルによって、あるいはモデルリリースによって異なる。なぜなら、標準がないからだ。「コードが利用可能になることもあるが、微調整を行わないと、同等のパフォーマンスを得るために多額の費用がかかる可能性がある」と、カーネギーメロン大学のAI教授で、PwCの元グローバルAIリーダーであるアナンド・ラオ氏は言う。 2.…

White House executive order restricting data brokers enters effect — but to what end?

NewsBy DeveloperTiatra June 26, 2024

An executive order from President Biden restricting which countries data brokers can sell American data to took effect on Sunday, but some have expressed doubt about whether it will have much impact. The executive order prohibits data brokers from selling protected data about Americans to various “countries of concern,” which the US defined in December…

Stability.ai gets new CEO and investment dream team to start rescue mission

NewsBy DeveloperTiatra June 26, 2024

Troubled Stable Diffusion maker Stability.ai has finally named a new CEO as part of a turnaround plan that will see new investment and a star-studded cast of billionaire investors join its board. The new CEO is Prem Akkaraju, who stepped down from his post as CEO of famous digital effects company Weta Digital (now Weta…

The rising software supply chain threat: Mounting a unified defense

NewsBy DeveloperTiatra June 26, 2024

Malicious actors have been pressing their advantage against vulnerable software supply chains with exponentially increasing attacks. Enterprises have been hampered in fighting back by lack of internal consensus on their security capabilities and practices. Recent survey findings uncovered multiple areas of disconnect between senior executives/managers (“executives”) and hands-on staff (“doers”). Executives tended to have a…

Healthcare’s long road to digitization gets an AI boost

NewsBy DeveloperTiatra June 26, 2024

The University of Pennsylvania Health System had an enormous amount of anonymized patient data in its Penn Medicine BioBank, and SVP and CIO Michael Restuccia’s team saw an opportunity to use it to benefit the research hospital’s patients. “We had a conversation about how to take some of the innovation occurring in research around AI…

Leading tech in a PE portfolio company: 5 things you need to know

NewsBy DeveloperTiatra June 26, 2024

While the PE industry is not as active as it has been in previous years, what goes down typically comes back up, so CIOs are likely to get calls from recruiters about joining a PE portfolio company sometime soon. Some PE firms buy a portfolio company, replace key leaders (including the CIO) and let the…

Parada en boxes: gobernanza del dato y sostenibilidad, los grandes retos de la F1

NewsBy DeveloperTiatra June 26, 2024

A pie de pista, junto a una de las chicanes que otorgan personalidad propia al Circuit de Barcelona-Catalunya en Montmeló, el rugir del motor es ensordecedor, la adrenalina se dispara y las milésimas de segundo que los pilotos aspiran a ganarle al cronómetro se traducen en un pestañeo. Es fin de semana de Fórmula 1…

El éxito de la IA depende de una cultura de la innovación

NewsBy DeveloperTiatra June 26, 2024

En 2001, Steve Jobs dijo que era tan importante como el PC, y el inversor de capital riesgo John Doerr que podría ser más importante que Internet. ¿A qué tecnología revolucionaria se referían? Al Segway. Ya sabe, el dispositivo de transporte personal que fracasó en el mercado y se convirtió en sinónimo de los guardias…

París apuesta por la española Teldat para mejorar la conectividad del suburbano

NewsBy DeveloperTiatra June 26, 2024

París calienta motores y se pone a punto para acoger como anfitrión la edición 2024 de los Juegos Olímpicos. Así, en el marco de la celebración, Metro de París ha suscrito un acuerdo con la compañía especializada en telecomunicaciones y ciberseguridad, Teldat, con el propósito de mejorar la conectividad en el transporte público de la…

Daily Archives: June 26, 2024