OpenAI は何を正しく行ったのでしょうか?

a7f8d8d18bee277cb2cf21b49d0d2f2e.gif

著者 | 李建中       

制作 | 「Li Jianzhong Yansi」の公開アカウント

OpenAI は、AI テクノロジーと製品における一連のブレークスルーを通じて、Microsoft CEO のサティア ナデラ氏が「産業革命に匹敵する技術の波」と呼んだ汎用人工知能 (AGI) の開発を爆発させました。OpenAIが開発した大規模言語モデルに基づくAGI技術路線は、基本的に他のAI技術路線の終焉を告げるものであり、技術史上前例のない、単独で分野全体の方向性を変えることができる。従業員数 200 ~ 300 人の新興企業 (昨年末に ChatGPT が立ち上げられたとき、OpenAI チームの従業員数は約 270 名でした) が、多くの巨人が参入する AI 分野でどのようにしてすべての障害を克服したのでしょうか。長年にわたって競争し、一般的な人工知能の聖杯を勝ち取りましたか?シリコンバレーでも中国でも、多くの人が次のような疑問を抱いています。

なぜ OpenAI のような新興企業が、AGI のような壮大な革命の背後にあるのでしょうか? OpenAI は何を正しく行ったのでしょうか?

私は 2016 年から AI 分野の産業発展を追跡し、研究してきました。Global Machine Learning Technology Conference (ML-Summit) を毎年開催する理由は、Ilya Sutskever (主任研究員)、 Lukasz Kaiser (Transformer の共同発明者)、Andrej Karpathy (共同創設者)、Ian Goodfellow (GAN の父) などは頻繁に連絡を取り、コミュニケーションを取っています。私は以前から、AI 分野における異端児の「異種混合」である OpenAI に注目していました。

AI 業界の発展の歴史と、OpenAI が歴史的な道で行った多くの重要な選択を振り返ると、OpenAI がスタートアップ企業として「難しいが正しい」選択をしたことに気づき、ほとんど驚かされます。重要な岐路に立つたびに躊躇せずに決断したのです。OpenAI の開発の歴史におけるこれらの「難しくて正しい」選択を振り返ると、それは今日の AI 分野の多くの同僚にとって重要なインスピレーションになると思います。

3dc6782b17b91c4772bc0be00d75105d.png

ビジョンと使命: 一般人工知能への剣

「私たちの目標は、人類すべてに利益をもたらす方法で人工知能を進歩させることです。今日の AI システムは素晴らしいですが、多くのシステムのパフォーマンスは低いです。しかし、将来的には、AI がほぼすべての知的タスクで人間のパフォーマンスに匹敵する可能性が非常に高いです。この事業の結果は不確実であり、作業は困難ですが、私たちは目標と構造が正しいと信じています。」

この一節は、2015 年 12 月の設立直後に OpenAI の創設チームによって公開されたブログ「ビジョンとミッション」からの抜粋です。8年経った今でもこの本を読んでいると、その気持ちは今でも誠実で刺激的です。

OpenAIは、AI分野全体がさまざまな霧に包まれていた2015年に、創業チームの人工知能に対する確固たる信念、深い理解、現在の研究に基づいて、「汎用人工知能」という強力な「ビジョンとミッション」を打ち出すことができました。これらを踏まえて、私はこれらを総称して人工知能一般の「意志」と呼んでいます。この種の「意志の力」は、OpenAI が人工知能開発の道で何度も直立し続けるのに役立ちました。

今日の衝動的なベンチャーキャピタル界における「ビジョンと使命」は、「VCを騙し、従業員にケーキを渡す」ものとして簡単に疎外されてしまいます。しかし、人類の科学技術発展の歴史を紐解くと、その分野において強い「ビジョンと使命」を掲げることが、その分野のパイオニアとしての特徴であることがわかります。逆に言えば、革命的なことはどれも非常に困難であり、「ビジョンと使命」という強い指針がなければ、困難に遭遇すると簡単に諦めて倒れてしまいます。ですから、強い信念を持っている創業者の方は、ぜひ「ビジョンとミッション」について声を上げてください。また、私たちのベンチャーキャピタルやメディア界が、起業家の「ビジョンとミッション」を嘲笑するのではなく、奨励し、支援することを願っています。

私がよく思うのは、時間を 2015 年に戻して、30 歳のサム・アルトマンと 2​​9 歳のイリヤ・サツケヴァーという 2 人の少年が、私たちのベンチャー企業の 1 つで上記の「ビジョンと使命」について話していたとしたら、ということです。資本活動ということになるだろうか、彼はすべての「偉い人たち」の唾液に溺れてしまうのではないだろうか?実は、OpenAI は設立時に約 1 億ドルの寄付を受けており、当時 OpenAI は非営利団体として設立されました。

83d2bad62c90062fa458899f3963f0d7.png

技術的なルート 1: 教師なし学習

OpenAI が設立されて間もなく、Ilya Sutskever 氏のリーダーシップの下、「教師なし学習」の道に賭けました。AI 研究の分野に詳しい友人は、今日の一見比類なく正しい決定が、2015 年から 2016 年には間違いなくそれほど明白ではなかったことを知っています。なぜなら、当時の人工知能の分野では、データにラベルを付ける手法による「教師あり学習」が流行しており、レコメンドシステムやマシンビジョンなどの多くの垂直分野で効果が高かったからです。

しかし、「教師なし学習」は当時の理論的ブレークスルーや工学技術の点で非常に未熟で、効果が大幅に減じられるという典型的な「非主流」でした。しかし、データに手動でラベルを付ける必要がない「教師なし学習」は普遍性が強く、拡張が容易であり、大規模なデータの事前学習を通じて、データに含まれる人間の豊富な知識をモデルが学習することで、さまざまなタスクにうまく対応し、スキルを発揮してください。「汎用人工知能」という目標に対して、「教師なし学習」は当然「タスクの普遍性」と、膨大なデータに基づいて迅速に「スケール(拡張)」できる能力を持っています。

今見ると、OpenAIの「教師なし学習」によって多くの「教師あり学習」手法が大きく台無しになっていますが、当時「教師なし学習」を選択したことは明らかに「難しいが正しい」決断であり、AGIのビジョンとは切り離せないものとなっています。

a58a5d1ce43991551b492d9537101ff7.png

技術ルート 2: 生成モデル

2016 年にさまざまな「認識」タスク (視覚認識、音声認識など) が普及したとき、OpenAI は 2016 年 6 月に出版された『生成モデル』の冒頭で有名な物理学者ファインマンの言葉を引用しました。 「分からない。作れないなら分からない」。また、OpenAI の研究は生成タスクにも焦点を当てています。

当時、イアン・グッドフェローによって発明された GAN (生成対立ネットワーク)、その説明の難しさ、そして認識タスクと比較したその「有用性」には驚くべき瞬間がありましたが、一般に、主流の人工知能産業は実際に、数式モデルの判断は「難しいが、あまり役に立たない」。

しかし、「生成モデル」の記事を読み進めると、OpenAI チームが生成モデルが「AGI の唯一の方法」であると決意していることがわかり、OpenAI チームの優れた自己実現性の特徴を理解することができます。頼りになる。

b822b7bb6af49b6910aa9d6078336794.png

技術的なルート 3: 自然言語

ディープラーニングは 2012 年に業界に参入し、主流の手法になりましたが、マシンビジョンはすぐに、より優れた効果とより強力な収益化機能を備えたより成熟した分野になりました。Ilya Sutskever 氏も、ImageNet コンペティションへの AlexNet の参加を通じてマシン ビジョンの分野で有名になりましたが、OpenAI は、いくつかの試みを経てビジョンを主な方向として選択せず、より困難でリスクの高い「自然言語」に賭けることを選択しました。

自然言語処理は、視覚、音声、その他の分野と比較して、長い間比較的後進の分野と考えられてきました。自然言語タスクには膨大な複雑さと解決空間があり、多くの手法は単一のタスクには適していますが、別のタスクには適していないためです。 . 貧弱、途切れ途切れ。業界では、自然言語処理は人工知能の分野における「聖杯」であるとも言われています。

OpenAI Gym (オープンソースの強化学習プラットフォーム) と OpenAI Five (強化学習を使用して Dota2 ゲームをプレイする) を試しながら、OpenAI は自然言語に教師なし学習を使用するというタスクをさらに進めています。特に 2017 年は、Amazon レビューの次のキャラクターを予測する生成的アプローチが大きな成果を上げました。

OpenAI が自然言語に賭けることを選んだ理由は何ですか? 有名な哲学者ウィトゲンシュタインの言葉を借りれば、「言語の境界は世界の境界である」。イリヤ・サツケヴァーの言葉を借りれば、「言語は世界の地図であり、GPT は言語の圧縮である」。人間の知能に関する限り、自然言語は中核であり、その他の視覚や音声などは自然言語の補助的な素材にすぎません。

自然言語から AGI への道への信仰のような賭けのおかげで、Google の Transformer 基礎論文「Attending is All You Need」が 2017 年 6 月 12 日に発表されました。Ilya Sutskever の原文の言葉を借りれば、この論文は翌日、その新聞を見た彼の第一声は「そんなことだ」でした。Transformer モデルは、理論的には RNN や LSTM などの前世代の自然言語処理手法を覆し、OpenAI チームが自然言語の分野を探索する上での重要な障害をいくつかクリアします。

残念ながら、Transformer の理論モデルは Google 内で十分な注目を集めていませんが、OpenAI チームにとっては宝物のように感じられています。この場面は、1979 年にジョブズ氏がゼロックス PARC 研究所の Alto コンピューターを訪問したときとよく似ています。グラフィカル インターフェイス (GUI) とマウスの後、ジョブズ氏は Apple に戻り、グラフィカル インターフェイスに賭け始め、パーソナル コンピューターの時代を切り開きました。 Xerox PARC のリーダーシップ しかし、GUI によって一般の人々に解放される巨大なコンピューティングの可能性が見えてくるまでには時間がかかりました。個人的に Transformer を開発した 7 人の共同発明者も次々と Google を去り、OpenAI に参加した者 (2021 年世界機械学習技術カンファレンスの基調講演者や OpenAI 研究科学者 Lukasz Kaiser を含む) や、シリコンの支援を受けて新会社を設立した者もいたValley VC. 人工知能企業の世代。これは、昨日、シリコンバレーにフェアチャイルド・セミコンダクター社の「8人の裏切り者」が再び現れたような状況に似ている。

f14e72212d6b1c4459489020bcaade7c.png

技術ルート 4: デコーダー

Transformer が大規模言語モデルの理論的窓を開いた後、大規模言語モデルは 3 つのルートを開発しました。最初のタイプは、Google BERT および ELECTRA に代表される Encoder-Only (エンコーダ) ルートです。2 番目のタイプは、Google T5 および BART に代表される Encoder-Decoder (コーデック) ルートです。3 番目のタイプは、OpenAI GPT Decoder-Only (デコーダ)ルートが表現されます。

これら 3 つのルートのうち、Encoder-Only ルートは理解タスクに適していますが、生成タスクへの対応が難しく、拡張性や適応性があまり高くありません。ほぼ主流であり、放棄の時点です。エンコーダ/デコーダ ルートは特定のシナリオ タスクに適していますが、汎用性とスケーラビリティは比較的劣ります。Decoder-Only ルートは、まずタスクの生成に非常に適していると同時に、さまざまなタスクに対する汎用性が高く、エンジニアリング上の拡張性 (スケール) も高く、規模を拡大するのに非常に適しています。モデル。

aa2ef5401a0cf23d25dabee8304a342e.jpeg

これらの特性に基づいて、AGI 汎用人工知能が目的地である場合、Decoder-Only ルートが最適な選択であることは明らかです。上記の大規模言語モデルの進化ツリーから、GPT が選択した Decoder-Only ルートが明らかに大規模言語モデルの発展と繁栄をリードしていることがわかります。

50b93637211aa0901892694e0d1d03a8.png

技術的なルート 5: 強化学習から調整まで

教師なし学習、生成モデル、自然言語、デコーダーという上記の重要な技術的分岐点の選択を経た後、GPT モデルは明らかに AGI への道を進んでいます。しかし、GPT の力は、人類に危険をもたらすのか、人間の価値観を破壊するのか、悪を助長するのか、社会秩序を混乱させるのか、あるいは人類の生存を脅かすのか、新たな懸念も生じます。

これは OpenAI のビジョンと使命に対する重大な違反です。強力な GPT モデルを人間の価値観や社会規範と整合させるにはどうすればよいでしょうか? 強力になった後、どうすれば「人類の役に立つ」ようになるのか?技術的な問題はテクノロジーで解決しなければなりません。このとき、Dota ゲームのインテリジェント エージェントの初期トレーニングにおける OpenAI の長年にわたる集中学習スキルが役に立ちました。事前学習後に人間のフィードバックに基づく強化学習(RLHF、Reinforcement Learning from Human Feedback)を加えることで、AIが人間にとって有益な「良いAI」であることを教え込み、人間の目的に利用されないようにガードレールを設置します。悪。この点で、OpenAI は非常に深く考え、多額の投資を行っており、その「ビジョンと使命」に値します。

52a8cf6a445dfb621ec156c691fbf628.png

工学の知恵: スケールの法則

OpenAIが歴史上行ってきた一連の技術的選択を振り返ってみると、ほとんどすべての選択が「一般の人工知能スケールにとって有益かどうか」という原則を中心に行われており、「スケール」とは関係がなかったことがわかります。その時に「早く実現できるか」「主流か」「使いやすいか」「即効性があるか」は全く関係ありません。

技術アーキテクチャやビジネス戦略を行ったことがある人なら誰でも、「迅速かつ簡単に拡張できる」ことが、優れた技術アーキテクチャやビジネス モデルの「鉄則」であることを知っています。この鉄則は一般的な人工知能の開発にも当てはまります。OpenAI のチームはこれを明確に認識しています。彼らは、モデルパラメータ、トレーニングデータセットのサイズ、計算能力入力(1秒あたりのFLOP浮動小数点演算)、およびネットワークアーキテクチャ間のスケーリング則をまとめた有名な論文「ニューラル言語モデルのスケーリング則」を2020年に発表しました。

実際、OpenAI は、モデルのスケールの法則に加えて、AGI に至るまでのさまざまなスケールの力に対する非常に深い洞察と賢明な選択を備えています。

f3c3d04ddbf417d4645bc182b2ccdd23.png

製品に関する知識: スーパーアプリからエコロジカルプラットフォームまで

2018年のOpenAIによるGPT 1.0の立ち上げから、2020年のGPT 3.0の開発に至るまで、現時点でOpenAIはすでに大きな言語モデルとしての切り札を獲得していますが、そのカードをどう切るかも非常に重要です。歴史上、テクノロジーに長けた選手はたくさんいますが、プレーが下手な選手もいます。OpenAI の「汎用人工知能」という強力なビジョンを考えると、プラットフォーム企業にならないことは困難です。しかし、科学技術の歴史の中でプラットフォームとしてスタートした企業のほとんどは戦場で失敗してきました。対照的に、成功したプラットフォーム テクノロジー企業のほとんどは、「スーパー アプリケーション」を構築することから始めました。

シリコンバレーのトップインキュベーターである YC の社長に鍛えられた OpenAI のもう一人の魂、CEO のサム アルトマンは、当然のことながら製品戦略の達人です。OpenAI は、「スーパー アプリケーション」である ChatGPT から始めることを選択しました。わずか数か月で、数億人のユーザー、大量のインタラクティブ データ、および強力なブランド アピールを蓄積しました。そうして初めて、次の ChatGPT API、プラグインが可能になります。一連の寛大なプラットフォーム レイアウトを待ちます。さまざまなチャネルからの現在のニュースから判断すると、OpenAI の製品にはまだ多くの大きな動きがあり、様子を見ましょう。

さて、前回の記事「AGI時代のプロダクトレイアウトとパラダイム」でも、AGI時代のプロダクトイノベーションについての私の考えをより深くお話しさせていただきました。

1e3537b5b8fa2216e17dfeb0513ec1c4.png

株式設計: 収益性の高い企業を制限する

OpenAI は当初、非営利団体として設立され、初期資金は寄付によって集められました。しかし、創設チームが AGI の開発に必要なハードウェアと人材への投資を過小評価し、寄付の履行を過大評価していたことは明らかです (初期に約束された寄付の多くは実施されませんでした)。そこでOpenAIは2019年3月にコーポレートガバナンス構造を再設計し、マイクロソフトから10億ドルの出資を受け入れ「利益制限型」企業に変更した。

「利益制限」では、OpenAIに投資した株主は、将来的にOpenAIから投資額の最大100倍を受け取ることが定められている。超過分は非営利団体 OpenAI Nonprofit によって管理されます。

この独創的な株式設計は、OpenAI が必要とする投資を呼び込むだけでなく、AGI が強力になりすぎて巨額の利益を掴むことを防ぐこともできます。AGI の開発に必要な商業的支援と、AGI が全人類に利益をもたらすという壮大なビジョンとの間の矛盾のバランスをとります。数年後に歴史を振り返ってみると、この株式設計はビジネス史上の偉大な発明でもあると思います。創設者兼 CEO のサム アルトマンは株式を取得せず、商業的利益も求めず、世界を変えるために AGI を追求する献身的な姿勢も賞賛に値します。

cf105baa333b31a4f8b1b31effd41f7f.png

戦略的デザイン: 垂直方向と水平方向の結合

OpenAIをAI時代の小さな恐竜に例えると、長年AI分野に多額の投資をし、数兆ドルの市場価値を持つGoogleとMicrosoftは明らかに二大恐竜である。 AI時代に。OpenAIのような「スポイラー」は、2大恐竜のどちらかに狙われれば大炎上するだろう。そして、OpenAIは明らかに、ChatGPTのような「人気アプリ」の立ち上げによって引き起こされるAI戦国紛争に対して十分な先取りと絶妙な戦略設計を持っています。

まず第一に、大きな恐竜である Microsoft との戦略的協力を通じて、OpenAI は数百億ドルの貴重な開発資金を獲得しただけでなく、GPT を通じて Microsoft の Bing 検索を強化し、大きな恐竜である Google を傍受し、GPT にも力を与えました。しばらく担当できなくなるBエンド市場(AzureクラウドサービスやOffice 365など)で適切な利益を得るために、Cエンド市場に注力できるようにするため。 AGI時代のエコロジープラットフォーム構築のエントリーポイント。

この巨人の「イノベーションのジレンマ」を巧みに利用することで、従業員数わずか 300 人強、評価額 300 億米ドル未満の新興企業が、市場価値数兆米ドルとほぼ 100 億米ドルに達する 2 つのテクノロジーを同時に活用することが可能になります。従業員数 20 万人、事業の歴史全体を見ても、巨大ワニの戦略的配置は前例のない壮大なものです。

964c6286141b19d18b10c97bf0099561.png

チーム構成: 学術 + エンジニアリング + 製品 + ビジネス

これを読んだ後、多くの友人は、OpenAI の起源は何ですか、そして He De はどうしてそんなに頑丈なのでしょうか? と尋ねるかもしれません。他に秘密はありません。テクノロジー企業で最も高価なものは人材です。OpenAI には、AI の世界に誇るに十分な共同設立チームの組み合わせがあります。

No.1 CEO のサム・アルトマンはスタンフォード大学を中退して 20 歳で Loopt を設立し、2012 年に会社を 4,300 万ドルで売却しました。2014年、彼は20歳年上のYC創設者でシリコンバレー起業家のゴッドファーザーであるグラハム氏の説得を受け、後任としてYC社長に就任した。グラハムはサム アルトマンの卓越した才能を非常に早くから見抜き、彼の目にはサム アルトマンが将来のシリコンバレーのジョブズとして映りました。サム・アルトマンは、シリコンバレーでの起業家精神と YC の経験により、製品モデル、ビジネス戦略、投資、ファイナンスの分野で最高の才能を鍛えられました。

ポジション 2 の主任科学者であるイリヤ・サツケヴァーは、深層学習の父であるジェフリー・ヒントンの親しい弟子であり、ImageNet コンテストで有名になり、その後 Google Brain に参加し、機械翻訳を大幅に改善するための Seq2Seq を発明し、 TensorFlow と AlphaGo の開発。彼はディープラーニングという学問分野における「先駆者」です。

社長のグレッグ ブロックマンは、有名な決済会社 Stripe を設立して CTO を務めたこともあり、強力なエンジニアリング スキルと技術チームをゼロから 1 まで構築した経験を持っています。これは、OpenAI の長期的なエンジニアリング テクノロジーの柱です。さらに、Andrej Karpathy、John Schulman、Lukasz Kaiser などの輝かしいスターが集まっているため、OpenAI は人口密度の点で世界トップクラスの AI 人材となっています。OpenAI のチーム構造は、OpenAI の AGI 起業家精神も反映しています。学術、エンジニアリング、製品、ビジネスの 4 つの柱は不可欠であり、それぞれが非常に強力です。

OpenAI とサム アルトマンは、AGI に注力することに加えて、核融合、量子コンピューティング、暗号通貨などの多くの企業にも投資しており、エネルギー、コンピューティング能力、富の分配などの将来の変化を中心に大規模なレイアウトを作成してきました。これらはそれぞれ、AGI の将来を示しています。

要約すると、OpenAI は、テクノロジーの複数の分岐点で、あるいは製品、エンジニアリング、資本、戦略、チームのいずれにおいても、重要な選択であるかどうかにかかわらず、良い役割を果たしてきました。研究と注目に値する企業です。 AGIの時代へ。

著者について

Li Jianzhong Boolan 創設者兼最高技術専門家、Global Machine Learning Technology Conference の会長。彼は、人工知能、製品イノベーション、ビジネス モデルに関して豊富な経験と深い研究を持っています。近年、大規模言語モデルに基づく人工知能手法の研究、関連研究、コンサルティングが業界から強い注目を集めています。2005 年から 2010 年まで、マイクロソフトの最も貴重な技術専門家および地域テクニカル ディレクターを務めました。テクノロジーと製品の分野で 20 年近くの経験を持ち、多くのフォーチュン 500 企業を含む有名ブランドにハイエンド製品のイノベーションと技術戦略のコンサルティング サービスを提供しています。

注: この記事は WeChat 公開アカウント「Li Jianzhong Yansi」から許可を得て転載していますので、転載する必要がある場合は、相手に連絡して許可を得てください。


[イベント共有] Global Machine Learning Technology Conference (ML-Summit) は、2023 年 10 月 20 ~ 21 日に北京のウェスティン金茂ホテルで開催されます。本カンファレンスは、「AGI革命の時代を迎えよう」をスローガンに、エンジニアリング実践を中心に、「大型モデル最先端技術進化、大型モデルシステムエンジニアリング実践、大型モデルアプリケーション開発実践、AIGC、マシン ビジョン、AIGC 業界のアプリケーションと実践、AIGC はソフトウェア エンジニアリングの変革、ML/LLM Ops の大規模モデルの運用と保守、AI インフラの大規模モデル インフラストラクチャを可能にします。詳細は公式サイト http://ml-summit.org/ をご覧ください(またはオリジナルリンクをクリック)

739a1145acc0fd109357de2e6e71f214.gif

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131566157