AI時代のアプリケーションエンジニアリングアーキテクチャの進化を探る、ワンマン企業の時代はどこまで?

前文

現在の AI 生成モデルの時代では、フロントエンドおよびバックエンドの研究開発学生が遅かれ早かれ、AI 関連テクノロジーを理解して使用することに直面することになります。

すべての製品は AI でやり直す価値があります。その根本的な理由は、現在のAIの形態、つまり生成モデルが、これまでの技術のように既存の製品形態を補完するだけではなく、AIの支援によって新たな製品形態を変化させ、創造するものであるためです。

簡単に言えば、製品開発の学生はより多くのことができるようになります。

1. 現代AIの特徴

現代の AI は台頭しています。さまざまな分野、さらにはモデル全体に​​対して汎用的な強力な推論機能を備えています。さまざまな理論的実践も過去 2 年間で爆発的に成長しています。現代の AI に対する理解は基本的に同じスタートラインにあります。 AI が非常に魅力的である重要な理由の 1 つ。

AI については、人間の意識が非アルゴリズムであることは多くの研究で示されており、ゲーデルの不完全性定理からチューリングの計算不能問題に至るまで、チューリング マシンに基づく人工知能、つまり言語に基づく現代の事前学習アルゴリズムが有効であることが確認されています。モデル AI は「自己」という概念を確立できません。

したがって、現代の AI は依然としてチューリングの理論アーキテクチャによってサポートされており、依然としてチューリングの計算可能問題を解決しているため、AI を制約し、誘導し、管理するための優れた持続可能なアプリケーション アーキテクチャが依然として必要です。

2. 研究開発への課題

現実に戻りますが、フロントエンドやバックエンドなどの研究開発学生の既存の経験や知識は、短期間でこの閾値を超えることはできません。さらに、大規模なモデルのアルゴリズム、トレーニングと推論の高速化、ヘテロジニアス コンピューティングなどは、フロントエンドおよびバックエンドの研究開発学生の分野ではなく、利点でもあります。

しかし、AIGC 関連の実践的な記事が最近大量に登場していることから、多くの実践者がアルゴリズムの学生ではないことがわかります。これは、フロントエンドとバックエンドの研究開発の学生でもアルゴリズムを学習できることを示しています。言い換えれば、既存の大規模モデルに基づいて適用する閾値を超える可能性は依然としてあります。

3. AI応用エンジニアリング

現在のいわゆる AI 指向の開発は、大規模なモデルに Prompt を入力し続け、コンテキスト/文脈の制御の下で推論し、期待する結果を得るプロセスです。

推論プロセス全体の効率や結果の質は、大規模モデルの安定性という前提に加えて、AIに質問したり、AIを誘導したりする実務経験、つまりAIに最も大きな要素を与えます。

目の前にAIではなく人間がいるとして、たとえ無理な要求であっても相手が応えてくれるようなガイダンスを生み出すために、対話を通じて文脈をどのように確立すればよいでしょうか。この種の場面に特化した、いわゆるソーシャルエンジニアリング(ソーシャルエンジニアリング)の概念を提唱した本「The Art of Deception」があります。

同様に、対応する AI は現在人気のある Prompts Engineering (Prompts Engineering) で、誰かが ChatGPT をおばあちゃんの役割を果たして孫に Windows アクティベーション コードについての話をさせようとし、実際に使用可能な MAK KEY を入手しました。そして、ソーシャル エンジニアリングに似たこの種のプロンプト エンジニアリングは、AI がニーズを解決するプロセスを従来のプログラミングの常識を完全に覆します。

4. AIシナリオの差別化

AIGC コンテンツ生成の一般的な概念とは異なり、AI はさまざまなシナリオでさまざまな特性に区別される必要があります。次に、代表的な 3 つのインテリジェント シナリオを示します。

4.1 知識集約型

従来の知識シナリオとは異なり、AI 時代では知識の要約、抽出、要約、分類、コンテンツの処理と変換などのシナリオも持つことができます [12]。

たとえば、知識構造はマップ (ブレイン マップ、フローチャート、アーキテクチャ マップなど)、詳細なコンテンツの補足 (例、メモの追加など) などに変換されます。

4.2 インタラクション集中型

ロールプレイング、社会援助、現場コンサルタント、補助的な意思決定、オフィス文書の包括的な調整など、大規模なモデルがさまざまな役割を果たす人間とコンピューターの相互作用を強調する補助的なシナリオ[15]。

4.3 テキスト/コードの種類

大規模な非構造化テキストの生成に加えて、ローコード、ノーコード、ハイブリッド R&D シナリオでのコード生成、コード テスト、コード変換、コード レビューなどのコーディング関連の専門分野もあります [15]。

私たちが直面するインテリジェント シーンの問題は比較的複雑であり、これらのシーンは自由度が高すぎるため、人間による事前の思考と固定化によってこの絶えず変化する需要を解決するのは困難であることがわかります。一般的なプログラミング言語の 12 個のキーワードに比べて、人間の思考は自由で制約がありません。この場合、複雑な問題を解決するために AI アプリケーションで口語的なプロンプトを使用することは、ほとんど制御不能です。

したがって、AI アプリケーションを制御可能に設計し、大規模モデルの錯覚とドリフトという現在の問題を解決する方法は、検討する価値が非常にあり、私たちが議論する中心的な問題でもあります。これらの問題を解決するための新しいアーキテクチャを生成するには、新しい理論的指針を導入する必要があります。

5. 推理力

以下に、業界における大規模モデルの一般的なアルゴリズムと実際のアーキテクチャを示します。

5.1 基本的な推論

大規模モデルの使用の中核となる機能は推論です。以下では、業界でよく知られている AI 推論ソリューションをいくつか紹介します。

5.1.1 IO規格

推論プロセスが存在しない場合、ビッグモデルに質問すると、直接答えが得られます。このようなプロセスゼロの推論は、標準 IO と呼ばれます。ほとんどの場合、Standard IO は 1 ステップで問題を解決できません。自分自身を特定し、さらにガイドする必要があります。これを複雑なタスクに使用することはほとんど不可能であるため、一般にさまざまな最適化実験の比較参照として使用されます。

5.1.2 思考の連鎖 (CoT)

2022 年には、有名な思考連鎖 (CoT) [11] 論文が出版され、AI による複雑なタスクの処理において重要な役割を果たすことになります。つまり、複雑なタスクを複数の管理可能な単純なサブタスクに分割し、大規模なモデルが思考できるようになります。それぞれの小さなタスクのプロンプトと推論を制御できるように、段階的に実行します。

これは簡単に理解すると、「ある問題に対して、大きなモデルに直接結果を与えるのではなく、大きなモデルに段階的に推論をさせて推論を生成させ、最終的に結果を与える」ということです。このテクニックは、多くの場合、ゼロショット/フューショットの下で非常に良い結果を達成します。CoT は、プロセス指向開発モデルと同様に、AI アプリケーション エンジニアリングにおいてすでに不可欠なパラダイムであり、今後も引き続き使用されます。

5.2 チェーンアーキテクチャ

ここでChainsについて触れなければなりません[24]. Chainsは有名な大規模モデルアプリケーション開発フレームワークであるLangchainが提供するモジュールであり,その名のとおりチェーンのアーキテクチャはCoTの実装と拡張として理解することができます。基本的な LLMChain から一般的なシナリオまで: APIChain、取得 QAChain、SQL チェーンなど:

Chains アーキテクチャでは、プロンプトからアンサーまでの各プロセスが、異なるタイプの LLMChain として標準化されていることがわかります。

提案から結果に至る要件全体の具体的なプロセスは、一連の複数の LLMChain に抽象化されます。これは、表現の点でよく知られている構造化および関数型プログラミングに非常に似ています。

これは良いニュースです。プロンプトとアンサーが水と土である場合、CoT とチェーンの構造の理論的指導により、水路を開いて川を建設し、もともと AI によってチェーンとチェーンに広められた制御不能な推論プロセスを強化するようなものです。チェーンの接続により、すべてが既知のプロセスのあるべき状態に戻ることができます。

しかし、これは本当に AI アプリケーション開発の未来なのでしょうか? 人間の脳の思考に依存し、推論プロセスを固めるChainsの実践はAIのすべてなのでしょうか?

そうは言っても、次の質問について考えることができます。

AIの分野では、AIという金を鍬として使い、ニーズを解決するのは地面を耕すことなのでしょうか?あなたの直感では、AI の機能と使い方はそれ以上のものだと思いますか? これは、私たちの想像力を制限する従来のアーキテクチャまたはプログラミング パラダイムでしょうか?

5.3 より良い推論

5.3.1 CoT の自己一貫性 (SC)

2023 年 5 月の SelfCheckGPT[7] 論文では、自己一貫性と呼ばれるメカニズムが幻覚検出に重要な貢献をしていると述べられていますが、これは単純に「複数の人が多段階の思考と回答に参加できるようにする質問」として理解できます。別の人が採点して最良の回答を選択します。」

質問に対して複数の CoT を一度に生成し、各 CoT の推論に投票し、最終的に結果に最も近い推論を取得します。投票は評価関数であり、一般的に使用されるのは BERT スコアまたは n-gram です。

5.3.2 思考の木 (ToT)

また今年、Tree of Thoughts(略してToT)の論文[10]が出版されました。CoT がチェーンだとすると、ToT は複数の CoT チェーンから構成されるツリーであり、AI が推論と意思決定のプロセスを通じて自律的に拡張できることが明らかになり、大きなブレークスルーとなります。

CoT はタスクをサブタスクに分解するプロセスを強調し、ToT はタスクを分解することで複数の思考プロセスを生成することを強調し、最終的に ToT 全体が思考ツリー構造を形成するため、複雑な問題からサブタスクへの思考パスを便利に使用できます。 Tree などの古典的なデータ構造は、複雑な問題を解決するために幅優先 (BFS) または深さ優先 (DFS) 検索を使用します。この場合、思考パス、つまり CoT の各推論状態は、前述の Self によって決定されます。 - 一貫性またはその他の更新 高度な評価方法。

このようにして形成された大規模モデルの自己推論と意思決定を伴うツリー構造は、AIシーンのドリルダウン論理的自己一貫性に基づいて完成するものであり、簡単に言うと人間が行うべき理解・分析・実行・検証を代替するものとなります。正しい結果が得られるまで、プロセス全体が繰り返されます。

6. 拡張言語モデル (ALM)

そうは言っても、私たちはすでに限られた範囲の自動推論および幻覚認識機能を持っていますが、大規模モデルの可能性はそれを超えています。チューリング賞の Yann LeCun (Yang Likun) は、2023 年初めに発表された論文の中で拡張言語モデル (ALM) の概念について言及し、ALM について 3 つの部分について言及しました。

  • 推論: 複雑な可能性のあるタスクを、言語モデル自体または他のツールの呼び出しによって解決できる単純なサブタスクに分解します。
  • 動作: ALM によって呼び出されたツールは仮想世界または現実世界に影響を与え、その結果を観察します。
  • ツール: 外部情報を取得する検索システムやロボット アームなどを呼び出すことができるツールなど、ルールまたは特別なトークンを通じて外部モジュールを呼び出す言語モデルの機能。

現在利用できる大規模モデルのコンテキスト長はアプリケーション規模の拡大に追いつかないため、大規模モデルには外部からデータを取得したり、外部に影響を与えてコンテキストを拡張する機能が必要となります。 、これを環境外と呼びます。

たとえば、「大きなモデルのマニピュレータがテーブルから一杯のコーヒーを拾います」[16]、このアクトでは、ツールがマニピュレータ、アクションが拾い上げる、アクション入力がテーブル上のコーヒー、そして「コーヒーは「マニピュレーターの中」、「テーブルの上にコーヒーがありません」は観察です[16]。

図の WebGPT[17] の例は、bing の gpt バージョンに非常によく似ています。これは比較的純粋な Act ライクな大規模モデルです。WebGPT に質問が提起されると、WebGPT は Web を検索し、提案された結果を提供します。ユーザーこれらの結果を並べ替えてフィルタリングし、WebGPT によって処理して回答を生成できます。

反応 [2][12]

これまで演技と推理は別々に演じられており、一緒にやっても建築という観点からは捉えられていませんでしたが、2022年10月にReActが提案され、ついに推理と演技が結びつき、最も重要なものとなりました。現時点で有能なプレーヤーのデファクトスタンダード。では、このアーキテクチャでは、アプリケーション エンジニアリングはどのように実践されるのでしょうか?

7、エージェントのアーキテクチャ

今年 4 月に AutoGPT の初期バージョンが衝撃的にリリースされて以来、AutoGPT は AI アプリケーション界隈で急速に普及しましたが、その理由の 1 つは、AutoGPT のパフォーマンスが私たちの AI への憧れに近いと思われることです。アプリケーションアーキテクチャ:

AutoGPT の場合、彼に要求目標を設定し、リソースとリソースと対話する能力を付与するだけで済みます。その後、彼の行動を制限する一連のルールを提供することで、彼は「自問自答と自問自答」によって徐々に目標に近づくことができます。結果の評価を利用して、要件が最終的に完成します。

通常、人間の脳に依存して推論プロセスを考え、固める Chains とは異なり、彼は AI に推論プロセスを自己インスピレーションさせているようです。チェーン アーキテクチャと比較すると、AutoGPT の推論プロセスと動作プロセスは自動であるため、実際にはプロンプト エンジニアリングにおける人間の利点が無効になります

ただし、この修正されていないオリジナルの自問自答方法は、いくつかの複雑な問題を解決するのに役立ちますが、その推論と意思決定の能力は、人間の脳が思考して推論と意思決定のプロセスを強化する方法よりもはるかに効率的ではありません。世界の意思決定業務の効率性と柔軟性が不十分。現実世界と関わる能力が限られていることと、ベンチマークがないことが、こうした不確実性の一因となっています。したがって、AI アプリケーション アーキテクチャの理想的な設計に近づくには、さらなる最適化が必要です。

業界は長い間、アプリケーション アーキテクチャにおける推論による意思決定プロセスの重要性に気づいており、Auto-GPT 類似アプリケーションの有効性と柔軟性のベンチマークを作成しました。LangChain エージェントと、最近ではまだ実験段階にある ハグフェイスの Transformers Agent、およびゲーム開発分野の Unity ML-Agents から、現段階ではシナリオによって区別される、より完全な AI アプリケーション アーキテクチャを学びました。 、エージェントのアーキテクチャ:

エージェント [13] [24]

一般的なエージェント アーキテクチャには次のコンポーネントが含まれます。

7.1 エージェント

推論と行動に特化した、よく調整された大規模なモデル。その中核となる機能は、タスクの計画と反映、継続的な改善であり、これには強力な推論と意思決定の能力が必要です。

7.1.1 ミッション計画

タスク計画: 複雑なタスクを効率的に実行できるように、大きなタスクを管理しやすい小さなサブ目標に分割します。

XoT & リウー [4]

前述の推論の共有で述べた XoT (CoT、Cot-SC、ToT) が典型的です。同じくプランベースのソリューションであるReWOOも導入し、問題が提起された場合、その問題を解決するための各プランを策定し、そのプランの結果を白紙のまま(ブループリントと呼びます)実行するという考え方です。 Worker によって実行され、実行結果がこのブループリントに入力され、最終的に結果が大規模モデルに渡されます。一般的なスキームとは異なり、段階的に実行する必要がないため、「」を強調する良い方法です。 「計画」能力スキーム。

7.1.2 反省と継続的改善

簡単に言えば、大規模モデルが以前の間違いから学習して将来のタスクをより適切に完了できるように、大規模なモデルに改善計画を提供することです。

アート[6] & リフレクション[15] [8]

ART を例に挙げると、これは監視を必要とするソリューションであり、発生した推論プロセスを促進し、将来再利用するためにそれを呼び出すことができます。このプロセスは次のように説明できます: タスク ライブラリにはさまざまなタイプのタスクの CoT が格納されており、ART インスタンスについて質問する場合、タスク ライブラリから最適なタスク ケースを見つけて、ユーザーの質問とともに大規模モデルに質問します。最終結果は人間の脳によってレビューされ、修正され、結果は TaskLibrary に保存されます。

右のReflexionは、人間の脳の部分を言語モデルに置き換え、大きなモデルが自己学習して自らの行動を最適化し、試行錯誤しながら意思決定、プログラミング、推論のタスクを解決する構造に変換します。反省。

業界の優れた事例としては ReAct、BabyAGI などがあり、ReAct は現在のデファクトスタンダードとなっており、広範囲に影響力を持っています。OpenAI は、最近発表された Function Call で GPT3.5 ターボ \ 4.0 (バージョン 0613) に基づくチューニング計画モデルも提供します。

7.2 メモリ

メモリにはコンテキストと履歴が含まれます[13]。

7.2.1 コンテキスト

私たちがよく知っているコンテキスト コンテキストは、エージェントにコンテキスト機能を提供する人間の脳の STM (短期記憶) に似ており、現在の大規模モデルのプロンプト ワード エンジニアリングはコンテキストに基づいています。

7.2.2 歴史

人間の脳の LTM (長期記憶) に似たリコールは、エージェントに関連データを保存および呼び出す機能を提供します。

ラグ[9] [14] & フレア[8]

WebGPT のようなデータの取得は非常に一般的なシナリオであり、従来のコンテンツの取得とは異なり、RAG、FLARE などの大規模なモデルによる取得を強化するソリューションもいくつか用意されています。

実際には、高速最大内積検索 (MIPS) をサポートする近似最近傍 (ANN) アルゴリズム データベースが通常、これらのスキームに一致するように選択されます。選択できるベクトル データベースは数多くあり、現在の市場でも人気のある分野です。 、ただし、さらに詳しく説明します。興味のある学生は、Alibaba Cloud の Tail ベースの VectorDB とクラウドネイティブのベクター データ ウェアハウス AnalyticDB PostgreSQL バージョンについて学ぶことができますが、ここでは詳しく紹介しません。

7.3 ツール

エージェントの呼び出し可能および実行可能な機能である、エージェントが使用できる一連のツールまたはすべての外部リソース。これは、関数、API、または別のエージェント アプリケーションなどを含むその他の大規模なモデルにすることができます。[13]

ChatGPT プラグインと OpenAI API 関数呼び出しは、ツール アプリケーションの最良の例です。

インターネットに適用できる現在の一般的なアイデアは、さまざまな分野の API とその API の説明と使用方法のドキュメントを提供し、使用する必要がある API がツールに存在するかどうかをエージェントに判断させるという継続的なプロセスです。相談、電話、確認:

API バンク: 拡張ツール[3]

API Bank は、彼の論文で実現可能な API 呼び出しのアイデアを提供するベンチマーク ツールです。

  • ステップ 1. API マニュアルをエージェントに提供します。エージェントは、各計画タスクで API マニュアルから必要な API の使用法をキーワードを使用して取得して要約できます。使用方法の指示は、提案に従って Few-Shot または Zero-Shot を使用できます。 Prompts Engineering によって提案され、CoT はエージェントをガイドします。
  • ステップ 2. API と入力チェッカーをエージェントに提供します。エージェントが API の使用法を習得した後、エージェントは API に必要なパラメータを生成し、API を呼び出して結果を取得できます。このプロセスでは、入力が正しいかどうかを継続的にチェックする必要があります。パラメータは正しく、出力結果を評価しています。期待どおりですか。

8. 将来について考える

Chains と比較すると、Agent は AI の可能性を実感しており、普及しようとしている先進的なアーキテクチャでもあります。私の理解では、エージェントは、私たちが通常議論しているアプリケーション層アーキテクチャよりも、チューリングマシン実装アーキテクチャに似ています。

チューリングの理論的アーキテクチャまたは近似的なハーバード アーキテクチャによってサポートされているフォン ノイマン アーキテクチャを思い出してみましょう。

実際、ノイマン アーキテクチャまたはハーバード アーキテクチャのデバイスの実際の開発では、UART、I2C、SPI バス プロトコルなど、さまざまなデバイスを操作するためにバスのアドレス指定と読み書きに対応するプロトコルを使用する方法に注意を払うことになります。私たちは学習して習得する必要がありますが、基本的に CU、ALU、および CPU 内のその他のユニットについては気にしません。

もう 1 つの事実は、PC CPU の内部にはマルチバスのハーバード アーキテクチャがあり、CPU の外部にはシングル バスに基づくフォン ノイマン アーキテクチャがあり、システム オン チップ (SOC) がさらに統合され、高速動作に関連することになります。コンポーネント。

このように、コンピュータ アーキテクチャは相違点を保持しながら共通点を模索しながら発展を続け、さらにこれらのユニット、高速ストレージ、バスを抽象概念としてカプセル化します。AI アプリケーションも同様で、エージェントは引き続き、関連する計画、反映、改善機能を独自のコア機能としてカプセル化します。

したがって、将来の AI アプリケーションは従来のコンピューター上で実行されるプログラムではなく、標準化された要件となり、大規模なモデルを備えた AI コンピューターの仮想インスタンス上で直接実行されるようになる可能性が非常に高いです。 CPU としてのプランニング能力に特化したエージェント. 今日、議論されているアプリケーション アーキテクチャも最下層に堆積され、AI コンピューターのコア アーキテクチャに変換されます。

AIコンピュータでは、計画と意思決定に特化したエージェント大型モデルが、コア数とGHzの周波数に基づく従来の計算機評価システムに代わって、計画と意思決定能力の評価(ベンチマーク)を提供します。 AI コンピューターが依存する周辺機器、つまりツールも、さまざまな専門分野をさらに深く掘り下げて、より特化した実行機能を提供します。

最終的にはAIコンピュータがチューリング完成し、AIブートストラップを通じて反復製品が工学分野から産業分野へ推進されることになる。

また、AI メーカーも、MetaGPT や AgentVerse などの現在のマルチエージェント ソリューションから、AI コンピューターと関連するクラスター、またはその他の統合ソリューションのメーカーに変わるでしょう。

著者|左

クリックして今すぐクラウド製品を無料で試し、クラウドでの実践的な取り組みを始めましょう!

元のリンク

この記事は Alibaba Cloud のオリジナルのコンテンツであり、許可なく複製することはできません。

中学3年生がWindows 12のWeb版deepinを書いた- IDEが正式デビュー、「真の独立研究開発」として知られる 同時に更新され、基礎となるNTアーキテクチャはElectron 「紅蒙の父」王成陸 基づく: 紅蒙 PC 版システムは来年開始され、文心は全社会に公開されます3.2.0 正式リリースグリーン言語 V1.0 正式リリース
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/yunqi/blog/10108319