オープンソースの生成AIで注意すべき10のこと
最近では、誰もがAIモデルを作成できるようになった。トレーニングデータやプログラミングスキルがなくても、お気に入りのオープンソースモデルを入手し、微調整を加えて、新しい名前でリリースすることができる。 4月に発表されたスタンフォード大学のAIインデックスレポートによると、2023年には149の基盤モデルがリリースされ、その3分の2はオープンソースだった。そして、そのバリエーションの数は途方もない。Hugging Faceは現在、テキスト生成だけで8万以上のLLMを追跡しており、幸いにも、さまざまなベンチマークでスコアを基準にモデルを素早く並べ替えることができるリーダーボードがある。そして、これらのモデルは、大手企業の商用モデルには及ばないものの、急速に改善が進んでいる。 EYアメリカズでジェネレーティブAIをリードするデビッド・グアレラ氏によると、オープンソースのジェネレーティブAIを検討する際は、リーダーボードが参考になる。特にHugging Faceはベンチマークの面で優れた仕事をしているという。 「しかし、これらのモデルを実際に試してみる価値を過小評価してはならない」と彼は言う。「オープンソースなので、簡単に試したり入れ替えたりできるからだ。そして、オープンソースモデルとクローズドな商用代替モデルとの性能差は縮まりつつある」と彼は付け加える。 「オープンソースは素晴らしい」と、Uber Freight のエンジニアリング部門責任者、Val Marchevsky 氏は付け加える。 「私はオープンソースに非常に価値があると感じている」と。 オープンソースモデルは、プロプライエタリモデルに性能で追いついているだけでなく、クローズドソースには真似できない透明性を提供するものもあると同氏は言う。 「一部のオープンソースモデルでは、推論に何が使われ、何が使われていないかがわかる」と同氏は付け加える。 「監査性は、幻覚を防ぐために重要である」 もちろん、価格面でのメリットもある。 「もし、たまたま容量に余裕のあるデータセンターをお持ちなら、なぜ他者に支払う必要があるのか? 」と彼は言う。 企業はすでにオープンソースコードの使用に精通している。2月に発表されたシノプシスのオープンソースセキュリティおよびリスク分析によると、すべての商用コードベースの96%にオープンソースコンポーネントが含まれている。 こうした経験から、企業は、適切なライセンスを取得したコードを使用するために何をすべきか、脆弱性を確認する方法、そしてすべてを常に最新の状態に保つ方法を知っているはずだ。しかし、これらのルールやベストプラクティスの中には、企業が見落としがちな微妙なニュアンスがあるものもある。以下は、その主なものである。 1. 奇妙な新しいライセンス条項 さまざまなオープンソースライセンスの種類は、その概要だけでも複雑である。そのプロジェクトは商業利用に安全なのか、それとも非商業的な実装にのみ安全なのか? 改変して配布することは可能か? プロプライエタリなコードベースに安全に組み込むことは可能か? さて、生成AIが登場したことで、いくつかの新たな問題が生じている。まず、非常に緩やかな定義のもとでのみオープンソースとなる、新しいライセンスの種類がある。 例えば、Llama ライセンスがある。 Llama モデルのファミリーは、オープンソースの LLM の中でも最高のものの一つだが、Meta はこれを「モデルへのオープンアクセスと、潜在的な誤用に対処するための責任と保護措置のバランスがとれたカスタムメイドの商用ライセンス」と公式に説明している。 企業は、モデルを商業的に使用し、開発者がベースとなる Llama モデルに追加作業を加えて作成・配布することは認められているが、Llama 派生品でない限り、Llama の成果物を使用して他の LLM を改善することは認められていない。また、企業またはその関連会社での月間ユーザー数が 700 人を超える場合、Meta が許可するかどうかは不明だが、ライセンスを申請しなければならない。Lama 3を使用する場合は、「Built with Llama 3」という文言を目立つ場所に表示しなければならない。 同様に、Appleは「Apple Sample Code License」のもとでOpenELMをリリースした。これは、この機会のために考案されたもので、著作権許可のみをカバーし、特許権は除外されている。 AppleもMetaも、一般的に受け入れられているオープンソースライセンスは使用していないが、コード自体はオープンである。Appleは実際にコードだけでなく、モデルの重み、トレーニングデータセット、トレーニングログ、事前トレーニング構成も公開している。これが、オープンソースライセンスのもう1つの側面につながる。従来のオープンソースソフトウェアは、まさにコードそのものである。オープンソースであるということは、それが何をしているのか、潜在的な問題や脆弱性がないかどうかを確認できるということだ。 しかし、生成AIは単なるコードではない。トレーニングデータ、モデルウェイト、微調整なども含まれる。これらのすべてが、モデルの仕組みを理解し、潜在的な偏りを特定するために不可欠である。例えば、地球は平らであるという陰謀論のアーカイブでトレーニングされたモデルは、科学的な質問に対する回答が苦手になるだろうし、北朝鮮のハッカーによって微調整されたモデルは、マルウェアを正しく識別できない可能性がある。では、オープンソースのLLMは、これらの情報をすべて公開しているのだろうか?それはモデルによって、あるいはモデルリリースによって異なる。なぜなら、標準がないからだ。 「コードが利用可能になることもあるが、微調整を行わないと、同等のパフォーマンスを得るために多額の費用がかかる可能性がある」と、カーネギーメロン大学のAI教授で、PwCの元グローバルAIリーダーであるアナンド・ラオ氏は言う。 2.…