バリエーション: より優れた AI に暗号化が必要な理由
要点
- 現在、基礎的な AI 開発は少数のテクノロジー企業によって支配されており、閉鎖的で反競争的な状態にあります。
- オープンソース ソフトウェア開発も別の選択肢ですが、基本的な AI は従来のオープンソース ソフトウェア プロジェクト (Linux など) としては開発できません。これは、「リソースの問題」があり、オープンソースの貢献者は、コンピューティングとデータのコストを超えた寄付をする必要があるためです。個人の能力。
- Crypto は、リソースプロバイダーが所有権を通じて基盤となるオープンソース AI プロジェクトに貢献するよう奨励することで、リソースの問題を解決します。
- オープンソース AI と暗号化を組み合わせることで、より大規模なモデルをサポートし、より多くのイノベーションを推進して、より優れた AI を実現できます。
導入
2024年のピュー・リサーチ・センターの世論調査では、アメリカ人の64%がソーシャルメディアが米国にプラスの影響ではなくマイナスの影響を与えていると考えており、78%が今日の政治的影響力においてソーシャルメディア企業が多大な影響力を持っていると答えており、うち83%がソーシャルメディア企業の影響力が強すぎると答えている。 % は、これらのプラットフォームが同意しない政治的見解を意図的に検閲する可能性が高い、または非常に高いと回答しています。ソーシャルメディアプラットフォームに対する嫌悪感は、アメリカ人を団結させる数少ない問題の 1 つです。
過去 20 年間のソーシャル メディア実験の進歩を振り返ると、現在の状況に行き着くことは避けられないように思えます。皆さんもその話を知っていますね。当初は少数の大手テクノロジー企業が注目を集め、そして最も重要なのはユーザーデータでした。当初はデータが公開されることが期待されていましたが、両社はデータを使用して破壊不可能なネットワーク効果を構築した後、すぐに方針を転換し、アクセスを遮断しました。これが本質的に、十数社に満たない大手ハイテクソーシャルメディア企業が寡占の小さな封建領のように存在し、現状が非常に収益性が高いため変化するインセンティブがないという現在の状況を引き起こした。閉鎖的で反競争的です。
現在 AI 実験が進んでいる状況を見ると、同じ映画をもう一度見ているような気分になりますが、今回はさらに複雑です。少数の大手テクノロジー企業が、基本的な AI モデルを構築するための GPU とデータを蓄積し、それらのモデルへのアクセスをブロックしました。参入障壁が非常に高いため、新規参入者 (数十億ドルを調達していない) が競合するバージョンを構築することはもはや不可能です。基本モデルを事前トレーニングするだけで数十億ドルの計算資本がかかり、前回のテクノロジーブームの恩恵を受けたソーシャルメディア企業は、独自のユーザーデータの管理を利用して、ライバルができないモデルを構築している。私たちはソーシャル メディアで行ってきたこと、つまり閉鎖的で反競争的であることを AI で再現しようと懸命に取り組んでいます。このクローズドAIの道を進み続けると、一握りのテクノロジー企業が情報と機会へのアクセスを自由に制御できるようになるでしょう。
オープンソース AI と「リソースの問題」
閉じられた AI の世界を望まない場合、代替手段は何でしょうか?明らかな答えは、ベース モデルをオープン ソース ソフトウェア プロジェクトとして構築することです。私たちが毎日利用している基礎的なソフトウェアを構築するオープンソース プロジェクトの例は無数にあります。オペレーティング システムと同じくらい基本的なものがオープン ソースで構築できることが Linux によって示された場合、LLM はどのような違いを生むのでしょうか?
残念ながら、基礎となる AI モデルには従来のソフトウェアとは異なる制限があり、これが従来のオープンソース ソフトウェア プロジェクトとしての実行可能性を大きく妨げています。具体的には、基盤となる AI モデル自体が、個人の能力を超えたコンピューティング リソースとデータ リソースを必要とします。その結果、人々の時間の寄付に依存する従来のオープンソース ソフトウェア プロジェクト (すでに困難な問題) とは異なり、オープンソース AI では人々がコンピューティングとデータの形でリソースを寄付することも必要になります。これがオープンソースAIの「リソース問題」です。
リソースの問題をより深く理解するために、Meta の LLaMa モデルを見てみましょう。 Meta は、有料 API の背後にモデルを隠すのではなく、LLaMa の重みを公開し、誰でも無料で (いくつかの制限付きで) 使用できるようにするという点で、競合他社 (OpenAI、Google など) とは異なります。これらの重みは、メタのトレーニング プロセス中にモデルが学習した内容を表し、モデルを実行するために必要です。重みを設定すると、誰でもモデルを微調整したり、モデルの出力を新しいモデルへの入力として使用したりできます。
Meta は LLaMa の重みを公開したことで称賛に値しますが、真の意味でのオープンソース ソフトウェア プロジェクトではありません。メタは、独自の計算、データ、決定を使用してモデルを非公開でトレーニングし、モデルをいつ世界に公開するかを一方的に決定します。 Meta は、独立した研究者/開発者にコミュニティへの参加を呼びかけていません。これは、個々のコミュニティ メンバーには、モデルのトレーニングや再トレーニングに必要な計算リソースやデータ リソース (数万個のハイメモリ GPU、それらを収容するデータ センター、大規模な冷却インフラ施設) を支払う余裕がないためです。 、何兆ものトレーニング データ トークン。スタンフォード大学の 2024 年の AI インデックス レポートで述べられているように、「トレーニング コストの上昇により、大学 (伝統的に AI 研究の中心地) は事実上、独自の最先端の基礎モデルを開発できなくなりました。」とサム アルトマン氏は、コストを理解するために、次のようなトレーニング コストについて言及しています。 GPT-4 は 1 億米ドルですが、資本支出は含まれていない可能性があります。Meta の資本支出は、主にトレーニングと AI のトレーニングにより、前年比で 21 億米ドル増加しました (2024 年第 2 四半期対 2023 年第 2 四半期)。モデルに関連するサーバー、データセンター、およびネットワーク インフラストラクチャへの投資。したがって、LLaMa のコミュニティの貢献者は、基本的なモデル アーキテクチャに貢献して反復する技術的能力を持っているかもしれませんが、そのための手段がまだありません。
要約すると、貢献者に時間の貢献のみを要求する従来のオープンソース ソフトウェア プロジェクトとは異なり、オープンソース AI プロジェクトの貢献者は、計算とデータの形で時間と多額のコストを貢献する必要があります。善意やボランティア活動に頼って、十分な関係者にこれらのリソースを提供する動機を与えるのは非現実的です。彼らにはさらなるインセンティブが必要です。おそらく、オープンソース AI 開発における善意とボランティア活動の美徳に対する最良の反例は、70 か国以上、250 以上の機関から 1,000 人のボランティア研究者が参加した 176B パラメーターのオープンソース LLM BLOOM の成功です。これは確かに素晴らしい成果ですが (私は全面的に支持します)、1 回のトレーニングの調整には 1 年かかり、フランスの研究機関から 300 万ユーロの資金を受けました (そして、その費用には、スーパーコンピューターの設備投資への資金は含まれていません)。モデルをトレーニングします。その 1 つはすでにフランスの機関で利用可能です)。 BLOOM を反復するために新しい助成金を調整し、それに依存するプロセスは、大規模なテクノロジー ラボのペースに合わせるにはあまりにも煩雑で官僚的です。 BLOOMがリリースされてから2年以上が経ちますが、このコレクティブが後継モデルを生産したかどうかはわかりません。
オープンソース AI を可能にするためには、オープンソースの貢献者にコストを負担させることなく、リソース プロバイダーが計算やデータを貢献できるよう奨励する必要があります。
なぜ Crypto がオープンソース AI のリソース問題を解決できるのか
Crypto の画期的な点は、所有権を活用して、リソースが高価なオープンソース ソフトウェア プロジェクトを可能にすることです。 Crypto は、オープンソースの貢献者にこれらのリソースを提供するための前払い費用の支払いを要求するのではなく、ネットワークに潜在的な利益をもたらす投機的なリソースプロバイダーを奨励することで、オープンソース AI に固有のリソース問題を解決します。
これを証明するには、元の暗号プロジェクトであるビットコイン以外に見る必要はありません。ビットコインはオープンソース ソフトウェア プロジェクトであり、それを実行するコードは完全にオープンであり、プロジェクトが開始された日からそうなっています。ただし、コード自体は秘密のソースではありません。ローカル コンピューター上にのみ存在するブロックチェーンを作成するためにビットコイン ノード ソフトウェアをダウンロードして実行することにはあまり意味がありません。このソフトウェアは、マイニングされたブロックの数の計算が単一の貢献者の計算能力を超えるほど大きい場合にのみ役立ちます。この方法でのみ、ソフトウェアの付加価値、つまり誰も管理しない台帳を維持することが実現できます。 Foundation オープンソース AI と同様に、ビットコインは、単一の貢献者の能力を超えるリソースを必要とするオープンソース ソフトウェア プロジェクトを表します。ネットワークの改ざんを防止するためにビットコイン、モデルを反復するために財団 AI など、さまざまな理由でこのコンピューティングが必要になる可能性がありますが、より広範な点は、どちらも実行可能なオープンソース ソフトウェアとして機能するには、単一の貢献者のニーズを超えるリソースが必要であるということです。プロジェクト。
ビットコイン、あるいは実際にはあらゆる暗号ネットワークが、参加者にオープンソース ソフトウェア プロジェクトへのリソースの貢献を奨励するために使用する魔法のトリックは、ネットワークの所有権をトークンの形で提供することです。ジェシーが 2020 年にバリアントの設立論文で書いたように、所有権は、リソース プロバイダーにネットワークへの潜在的な利益と引き換えにリソースをプロジェクトに提供する動機を与えます。これは、設立間もない会社を立ち上げるためにスウェット・エクイティを利用する方法と似ています。初期の従業員(創業者など)に主に事業の所有権を通じて支払うことで、スタートアップ企業は、他の方法では手の届かない労働力にアクセスすることで、スタートアップの問題を克服することができます。 Crypto は、汗の公平性の概念を、時間を寄付する人だけでなく、リソースの提供者にも拡張します。そのため、バリアントは、Uniswap、Morpho、World など、所有権を活用してネットワーク効果を構築するプロジェクトへの投資に重点を置いています。
オープンソース AI を可能にしたいのであれば、暗号化による所有権が AI が直面するリソース問題の解決策となります。研究者は、モデル設計のアイデアをオープンソース プロジェクトに自由に提供できます。アイデアの実装に必要なリソースは、プロジェクトの所有権と引き換えにコンピューティングおよびデータのプロバイダーによって提供されるため、研究者に法外な料金の前払い費用を支払う必要はありません。 。オープンソース AI では所有権はさまざまな形をとる可能性がありますが、私が最も興奮しているのは、Pluralis が提案したアプローチのような、モデル自体の所有権です。
Pluralis はこのアプローチをプロトコル モデルと呼んでいます。このアプローチでは、コンピューティング プロバイダーがコンピューティング リソースを提供して特定のオープンソース モデルをトレーニングし、そのモデルから将来の推論収益の所有権を得ることができます。所有権は特定のモデルに属し、所有権の価値は推論収益に基づいているため、コンピューティングプロバイダーには、トレーニングで不正行為を行うのではなく、最適なモデルを選択するインセンティブがあります (無駄なトレーニングを提供すると、将来の推論収益の期待値が減少するため)。 。次に問題は、トレーニングのために重みをコンピューティング プロバイダーに送信する必要がある場合に、Pluralis で所有権を強制する方法です。答えは、モデルの並列処理を使用してワーカー間でモデル シャードを分散し、ニューラル ネットワークの重要な特性を利用できるようにすることです。つまり、総重みのほんの一部だけを確認しながら、より大きなモデルのトレーニングに貢献できるため、完全な重みが保証されます。重みのセットは抽出できないままです。また、多くの異なるモデルが Pluralis でトレーニングされるため、トレーナーには多くの異なる重みセットが設定され、モデルを再作成することが非常に困難になります。これはプロトコル モデルの中核となる概念です。つまり、プロトコル モデルはトレーニング可能で使用できますが、プロトコルから抽出することはできません (モデルを最初からトレーニングするのに必要な以上の計算能力を使用せずに)。これは、オープンソース AI の批判者によってよく提起される懸念、つまり、クローズド AI の競合他社がオープン プロジェクトの労力の成果を横取りするのではないかという懸念に対処します。
なぜ暗号 + オープンソース = より優れた AI なのか
私はこの記事を、なぜ規範的な観点からクローズドAIが悪いのかを説明するために、ビッグテックのコントロールの問題について説明することから始めました。しかし、私たちのオンライン体験が運命論的な世界では、これはほとんどの読者にとって何の意味もないのではないかと心配しています。それでは最後に、暗号通貨を活用したオープンソース AI が実際に優れた人工知能につながる理由を 2 つ挙げたいと思います。
まず、Crypto とオープンソース AI を組み合わせることで、クローズド AI よりも多くのリソースを調整できるため、ベース モデルの次のレベルに到達することができます。私たちの現在の調査によると、計算とデータの形でリソースが増えるほど、モデルがより優れたものになることがわかります。これが、通常、基本モデルがますます大きくなる理由です。ビットコインは、オープンソース ソフトウェアと暗号技術がコンピューティング能力の面で何を可能にするかを示しています。これは世界最大かつ最も強力なコンピューティング ネットワークであり、大手テクノロジー企業のクラウドよりも桁違いに大きいです。暗号化は孤立した競争を協力的な競争に変えます。リソースプロバイダーは、問題を個別に (そして重複して) 解決するためにリソースをため込むのではなく、集合的な問題を解決するためにリソースを提供するよう奨励されます。暗号化を使用したオープンソース AI は、世界中の集合的なコンピューティングとデータを活用して、クローズド AI で可能なサイズをはるかに超えるモデルサイズを構築できるようになります。 Hyperbolic のような企業は、集合的なコンピューティング リソースを活用する力を実証し、誰でも自社のオープン マーケットプレイスで GPU を低価格でレンタルできるようにしています。
第二に、暗号通貨とオープンソース AI を組み合わせることで、さらなるイノベーションが推進されます。リソースの問題を克服できれば、機械学習研究の高度に反復的で革新的なオープンソースの性質に戻ることができるからです。基本的な LLM が最近導入されるまで、機械学習の研究者は何十年もの間、モデルとそれを複製するための青写真を公開していました。これらのモデルは通常、より限定されたオープン データ セットを使用し、管理可能な計算要件を備えているため、誰でもそれらを反復処理できます。この反復を通じて、RNN、LSTM、アテンション メカニズムなどのシーケンス モデリングが進歩し、現在の基本 LLM が依存する「Transformer」モデル アーキテクチャが可能になりました。しかし、GPT-3 のリリース (オープンソース GPT-2 の傾向を逆転させた) と ChatGPT の大成功により、状況はすべて変わりました。それは、大規模なモデルに十分な計算とデータを投入すれば、人間の言語を理解しているように見える LLM を構築できることが OpenAI によって証明されているからです。これにより、リソースの問題が発生し、学術研究に高額な費用を支払うことができなくなり、大手テクノロジー企業の研究機関は、競争上の優位性を維持するためにモデル アーキテクチャの公開をほとんど中止することになりました。主に個々の研究室に依存している現状では、最先端技術の限界を押し上げる私たちの能力は制限されるでしょう。暗号化によって実現されるオープンソース AI は、研究者が再び最先端のモデルでこの反復プロセスを継続して「次のトランスフォーマー」を発見できることを意味します。
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
イーサリアムガスの価格は現在 3.68666181gwei と見積もられています
米指数先物は下落、ナスダック先物は2%下落
AIを活用したDeFiアプリケーションxPortalがドイツのWeb3スタートアップAlphalinkの買収を発表
故ジョン・マカフィーの妻がミームコインをローンチ=トークン配布をめぐる議論から一部は詐欺を疑う声も