【GAI】Sequoia American Generative AI: 創造的な新世界

新しい言語モデルスタック

Sequoia US公式サイトに最新記事「Generative AI: A Creative New World」の翻訳が掲載されました。原著者はSequoiaのパートナーであるSonya Huang氏とPat Grady氏です。コラム内にはGPT-3の名前も書かれています、記事のイラストもMidjourneyによって生成されており、この記事自体がAIGCの着地パフォーマンスです。以下に原文を翻訳し、新たな発見や考えをお届けできれば幸いです。
ここに画像の説明を挿入

序章

人間は物事を分析するのが得意ですが、機械はさらに優れています。機械は一連のデータを分析し、詐欺やスパムの検出、荷物の発送時期の予測、どの TikTok 動画を表示するかの予測など、さまざまなユースケースのパターンを見つけることができ、より賢くならなければなりません。これは「分析AI」、または従来型AIと呼ばれます。
しかし、人間は物事を分析することだけが得意ではなく、創造することも得意です。私たちは詩を書き、製品をデザインし、ゲームを作り、コードを書きます。最近まで、機械は創造的な仕事において人間と競争する機会がなく、分析的で機械的な認知作業に追いやられていました。しかし最近、機械は意味のある美しいものを生み出そうとし始めており、この新しいカテゴリは「生成 AI」と呼ばれており、機械がすでに存在するものを分析するのではなく、新しいものを生成することを意味します。
生成 AI は、より速く、より安価になっているだけでなく、場合によっては人間が作成できるものよりも優れています。ソーシャルメディアからゲーム、広告から建築、プログラミングからグラフィックデザイン、製品デザインから法律、マーケティングから販売に至るまで、もともと人間の創造を必要としたあらゆる業界が、機械によって再構築されることを待っています。特定の機能は生成型 AI に完全に置き換えられる可能性がありますが、その他の機能は人間と機械の間で緊密に反復される創造的なサイクルで繁栄する可能性が高くなります。しかし、生成 AI は、幅広い最終市場にわたって、より優れた、より高速で、より安価な作品を生み出すはずです。人々が待ち望んでいる夢は、生成型 AI が創造と知識労働の限界費用をゼロに削減し、膨大な労働生産性と経済価値、そしてそれに対応する市場価値を生み出すことです。
生成 AI が対応できる分野には、何十億人もの人間の労働が関与する知識労働や創造的作業が含まれます。生成 AI は、これらの人間の効率と創造性を少なくとも 10% 向上させ、以前よりも速く効率的であるだけでなく、能力も向上させることができます。そのため、生成 AI は数兆ドルの経済価値を生み出す可能性があります。

01. なぜ今なのか?

生成 AI には、より優れたモデル、より多くのデータ、より多くのコンピューティング能力という、より広範な AI と同じ「なぜ今」の理由があります。このカテゴリーは私たちが捉えることができないほどの速さで変化していますが、コンテキストの中で最近の歴史を見てみる価値はあります。

第 1 波: 小規模モデルが主流 (2015 年以前)、小規模モデルは言語理解において「最先端」とみなされます。これらの小型モデルは分析タスクに優れており、納期の予測から不正行為の分類まであらゆる用途に使用できます。ただし、一般的な生成タスクには十分な表現力がありません。人間レベルの文章やコードを生成することは、まだ夢物語です。

Google Research による画期的な論文「Wave 2: Scale Competition (2015-現在)」 (Attending is All You Need https://arxiv.org/abs/1706.03762) では、自然言語理解の新しいニューラル ネットワーク アーキテクチャと呼ばれる手法について説明しています。トランスフォーマーは、並列処理が向上し、必要なトレーニング時間が短縮されながら、高品質の言語モデルを生成できます。これらのモデルは、特定のドメインに合わせて比較的簡単に調整できる単純な学習器です。

ここに画像の説明を挿入

案の定、モデルが大きくなるにつれて、人間レベルの結果が出力されるようになり、次に超人的な結果が出力されるようになりました。2015 年から 2020 年にかけて、これらのモデルのトレーニングに使用される計算量は 6 桁増加し、その結果、筆記、音声、画像認識、読解、言語理解において人間のパフォーマンス レベルを超えました。OpenAI の GPT-3 は特に優れたパフォーマンスを示しました。このモデルのパフォーマンスは GPT-2 を大幅に上回り、コード生成からジョークの作成に至るまでのタスクに関する優れた Twitter デモによって実証されました。

基礎研究の進歩にもかかわらず、これらのモデルは普遍的ではありません。これらは大規模で実行が難しく (特別な GPU 構成が必要)、より多くの人が広くアクセスできるわけではなく (利用できないか、クローズド ベータ版のみ)、クラウド サービスとして使用するには高価です。こうした制限にもかかわらず、生成 AI の初期のアプリケーションが競争に参入し始めています。

ウェーブ 3: より良く、より速く、より安価に (2022 年以降)、コンピューティング能力は安価になり、拡散モデルなどの新しいテクノロジーにより、トレーニングと実行に必要なコストが削減されます。研究者は、より優れたアルゴリズムとより大規模なモデルの開発を続けています。開発者のアクセスは、クローズド ベータ版からオープン ベータ版、場合によってはオープン ソースまで拡張されます。
LLM (Large Language Model) に興味を持っている開発者にとって、探索とアプリケーション開発の水門は現在開かれており、アプリケーションが大量に出現し始めています。

ウェーブ 4: キラー アプリが (現在) 出現し、プラットフォーム層が固まるにつれてモデルはより良く、より速く、より安価になり続け、モデルへのアクセスは無料でオープンソースになる傾向があり、アプリケーション層の創造性は成熟します。

モバイル デバイスが GPS、カメラ、ネットワーク接続などの新機能を通じて新しいタイプのアプリケーションを解き放つのと同じように、これらの大規模モデルが生成 AI アプリケーションの新しい波を引き起こすと期待されています。10 年前、モバイル インターネットの変曲点でいくつかのキラー アプリが市場を開拓したように、生成 AI 用のキラー アプリも同様に登場し、競争が始まると予想されます。

02. 市場の状況
以下は、各カテゴリを強化するプラットフォーム層と、その上に構築される可能性のあるアプリケーションの種類を示す概略図です。
ここに画像の説明を挿入

モデル

テキストは最先端技術ですが、自然言語を正しく理解するのは難しく、品質が重要です。最近では、これらのモデルは一般的な短編および中程度の形式で書くのがかなり得意です (それでも、反復や最初の草稿に使用されることがよくあります)。時間の経過とともにモデルが改良されるにつれて、より高品質の出力、より長い形式のコンテンツ、より優れた垂直方向の深さが期待できるようになります。

GitHub CoPilot で実証されているように、コード生成は開発者の生産性に短期的に大きな影響を与える可能性があります。さらに、コード生成により、開発者以外の人でもコードを創造的に使用することが容易になります。

画像は比較的最近の現象ですが、急速に広まりました。生成された画像を Twitter で共有するのは、テキストよりもはるかに楽しいです。生成された画像を編集および変更するための、さまざまな美的スタイルやさまざまなテクニックを備えた画像モデルが出現しています。

音声合成はしばらく前から存在していますが、消費者向けおよび企業向けアプリケーションはまだ始まったばかりです。映画やポッドキャストなどのハイエンド アプリケーションにとって、ロボットの音声ではない人間の音声品質の音声はかなり高いハードルです。しかし、画像と同様に、今日のモデルは、さらなる最適化やアプリケーションの最終出力を達成するための出発点を提供します。

ビデオと 3D モデルははるかに遅れており、人々は映画、ゲーム、仮想現実、建築、物理的な製品デザインなど、大規模なクリエイティブ市場を切り開く可能性に興奮しています。今後 1 ~ 2 年以内に、基本的な 3D およびビデオ モデルが登場すると予想されます。

オーディオや音楽から生物学や化学に至るまで、他の多くの領域で基本的なモデルが開発されています。以下のグラフは、基本モデルの進化と関連アプリケーションが可能になるまでのタイムラインであり、2025 年以降については単なる推測にすぎません。

ここに画像の説明を挿入

アプリケーション
ここでは、私たちが注目しているアプリケーションの一部を紹介します。これは単なるサンプルであり、私たちが把握できる以上のアプリケーションがたくさんあります。私たちは、創業者や開発者が夢見る創造的なアプリケーションに魅了されています。

コピーライティング: 販売およびマーケティング戦略や顧客サポートを促進するために、パーソナライズされた Web コンテンツや電子メール コンテンツを求める人が増えているため、これは言語モデルに最適なアプリケーションです。これらのコピーライティングは形式が単純でテンプレートが固定されている傾向があり、これらのチームに対する時間とコストのプレッシャーと相まって、自動化および強化されたソリューションの必要性が大幅に高まるはずです。

縦書き専用のライティング アシスタント: 現在、ほとんどのライティング アシスタントは汎用的なものになっており、法的契約書作成から脚本作成など、特定の最終市場向けに、より優れた生成アプリケーションを構築する大きなチャンスがあると考えています。ここでの製品の差別化は、特定のワークフローのモデルと UX インタラクションの微調整に反映されます。

コード生成: 今日のアプリケーションは開発者の開発を促進し、開発者の生産性を大幅に高めます。Copilot がインストールされているプロジェクトでは、コードの 40% 近くが生成されました。しかし、より大きなチャンスは、C エンドの消費者向けのプログラミングと開発機能を有効にすることであり、プロンプトの学習が究極の高級プログラミング言語になる可能性があります。

アートの世代: 美術史と大衆文化の世界全体がこれらの大規模なモデルにエンコードされ、これまでなら習得するのに一生かかったかもしれないテーマやスタイルを誰でも自由に探索できるようになります。

ゲーム: ここでの夢は、自然言語を使用して複雑なシーンや操作可能なモデルを作成することです。この最終状態はまだ遠いかもしれませんが、短期的には、生成テクスチャやスカイボックス アートのような、より即時的なオプションがあります。

メディア/広告: 広告代理店の作業を自動化し、消費者向けに広告コピーとクリエイティブをリアルタイムで最適化できる可能性を想像してみてください。マルチモーダル生成の絶好の機会は、セールス メッセージと補完的なビジュアルを組み合わせることです。

デザイン: デジタル製品や物理製品のプロトタイピングは労働集約的な反復プロセスですが、AI はラフ スケッチやヒントに基づいて忠実度の高いレンダリングを生成できます。3D モデルの出現により、ジェネレーティブ デザインのプロセスは製造から物理的なオブジェクトにまで拡張され、次の iPhone アプリやスニーカーは機械によってデザインされるかもしれません。

ソーシャルメディアとデジタルコミュニティ: 生成ツールを使用して自分自身を表現する新しい方法はありますか? これにより、Midjourney のような新しいアプリが人間と同じようにソーシャル ネットワーク上で文章を書くことを学習するため、新しいソーシャル エクスペリエンスが生み出されます。

写真

生成的 AI アプリケーションの分析

生成 AI アプリケーションはどのようなものになるでしょうか? 以下にいくつかの予測を示します。

インテリジェンスとモデルの微調整 生成
AI アプリケーションは GPT-3 や安定拡散などの大規模モデル上に構築されており、これらの、特定の問題に合わせてモデルを微調整できます。スペース モデルのサイズとコストを削減しながら、モデルの品質とパフォーマンスを向上させます。

生成 AI アプリケーションは、UI レイヤーと、大規模な一般モデル「大きな脳」の上にある「小さな脳」と考えることができます。

形成因子

現在、生成 AI アプリケーションは主に既存のソフトウェア エコシステム内のプラグインとして存在しています。たとえば、コードは IDE で生成され、画像は Figma や Photoshop で生成され、Discord ボットさえもデジタル ソーシャル コミュニティに生成 AI を組み込むツールです。

また、コピーライティング用の Jasper や Copy.ai、ビデオ編集用の Runway、メモ作成用の Mem など、独立した生成 AI Web アプリケーションも少数あります。

プラグインの形式は、初期段階では生成 AI アプリケーションのより良いエントリ ポイントとなる可能性があり、ユーザー データとモデルの品質が直面する「鶏が先か、卵が先か」の問題を克服できます (ここでは特に次のことを指します)。モデルを改善するために十分な使用状況データを取得するには、配布する必要がありますが、一方で、ユーザーを引き付けるには優れたモデルが必要です)。私たちは、この戦略がコンシューマーやソーシャルなどの他の市場カテゴリーでも成功しているのを目にしてきました。

インタラクション パラダイム
今日の生成 AI のデモンストレーションのほとんどは「ワンショット」です。つまり、入力を提供すると、マシンが出力を吐き出し、それを保持するか、捨てて再試行します。将来的には、モデルは反復をサポートし、出力を使用して変更、調整、アップグレード、変更を生成できるようになります。

現在、生成的な AI 出力はプロトタイプまたは初稿として使用されています。アプリは、創造的なプロセスを継続するために複数の異なるアイデア (ロゴや建築デザインのさまざまなオプションなど) を提案することに非常に優れています。また、最初の草案を与えることにも優れていますが、完成させるためにユーザーに最終的な仕上げを要求することも非常に得意です。それ (ブログ投稿やコード自動補完など)。ユーザーデータの一部も活用してモデルがよりスマートになるにつれて、最終製品として使用できるほどの完成度になるまで、これらのドラフトはますます良くなることが予想されます。

持続的な業界のリーダーシップ
最高の生成型 AI 企業は、ユーザー エンゲージメント、データ、モデルのパフォーマンスの間にフライホイールを形成することで、持続可能な競争上の優位性を生み出すことができます。勝つためには、チームは次の方法でこのフライホイールを実装する必要があります。

優れたユーザーの粘着性を持つ → より多くのユーザーの粘着性をより良いモデルのパフォーマンスに変換する (タイムリーな改善、モデルの微調整、ユーザー選択をラベル付きトレーニング データとして使用する) → 優れたモデルのパフォーマンスを使用して、ユーザーの成長と維持を促進します。

全員の問題を解決しようとするのではなく、特定のドメイン (コード、デザイン、ゲームなど) に特化する場合があります。まず既存のアプリケーションに深く統合して、その上で独自のプログラムを活用して配布し、次に既存のアプリケーションを AI ネイティブのワークフローに置き換えようとする可能性があります。ユーザーとデータを蓄積する適切な方法でこれらのアプリを構築するには時間がかかりますが、最高のアプリは長持ちし、大規模に成長する機会があると私たちは信じています。

04. 困難とリスク

生成型 AI には大きな可能性があるにもかかわらず、ビジネスモデルやテクノロジーの面で解決すべき課題はまだ多くあります。著作権、信頼、セキュリティ、コストなどの重要な問題はまだ解決する必要があります。

05. 視野を広げましょ
う 生成 AI はまだ初期段階にあります。プラットフォーム層はようやく盛り上がり始めたばかりで、アプリケーション層の分野も始まったばかりです。

明確にしておきますが、トルストイの小説を書くのに大規模な言語モデルを利用した生成 AI は必要ありません。これらのモデルは現在、ブログ投稿の初稿を書いたり、ロゴや製品インターフェイスのプロトタイプを生成したりするのに十分に適しており、短期から中期的に多くの価値を生み出すことになります。

生成 AI アプリケーションの最初の波は、iPhone が最初に登場したときのモバイル アプリケーションのシーンに似ています。いくつかのギミックはありますが、比較的薄く、競争上の差別化と不透明なビジネス モデルがあります。ただし、これらのアプリの中には、将来の可能性について興味深い洞察を提供するものもあります。機械が複雑な機能コードや素晴らしい画像を生成できることを一度知ってしまうと、私たちの仕事や創作において機械が役割を果たさなくなる未来を想像するのは困難です。

今から数十年後を夢見させれば、生成 AI が私たちの仕事、創作、遊びの方法に深く組み込まれている未来を想像するのは簡単です。メモは自分で書くことができ、テキストからピクサー映画まで、想像できるあらゆるものを 3D プリントできます。 , Roblox のようなゲーム体験でリッチな世界をすぐに作成できます。今ではSFのように思えるかもしれませんが、技術の進歩の速さは驚くべきものです。狭い言語モデルから自動コード生成に移行するまでにわずか数年しかかかりませんでしたが、この変化の速度を続けて「大きなモデルのムーアの法則」に従うと、これらの遠いシーンが手の届くところになるでしょう。

参考文献

おすすめ

転載: blog.csdn.net/Darlingqiang/article/details/131260940