AI ネイティブ エンジニアリング: Baidu App AI インタラクティブ テクノロジーの実践

著者 | ゴッドスタート

導入 

AIの波の台頭により、ビジネスフォームを再構築するために大規模なモデルを使用するアプリケーションがますます増えていますが、Promptの設計と最適化のプロセスで、Prompt全体の評価と最適化のサイクルが非常に長いことが判明しました。 a 迅速な生成、評価、反復のための統合ソリューション。迅速な評価と最適化プロセスの課題を解決し、ビジネス モデルと大規模モデルの統合を加速します。

全文は6796ワード、推定読了時間は17分です。

01 背景

インタラクティブ AI アプリケーションにおける大規模モデル テクノロジーの探索と実践により、私たちはユーザー エクスペリエンスとプラットフォームのインタラクティブな雰囲気におけるその驚くべき結果を目の当たりにしてきました。このテクノロジーは、ユーザーのインタラクション率とエンゲージメント時間を向上させるだけでなく、より豊かなインタラクティブなエクスペリエンスを提供する新しい方法を切り開きます。この理解に基づいて、私たちは 3 つの重要な開発目標を設定しました: 1 つ目は、さまざまなインタラクティブ シナリオにおける大規模モデルの適用範囲を拡大し、より多くのコンテンツとユーザー グループをカバーすること、2 つ目は、さまざまなインタラクティブ ニーズに対応する大規模モデルの能力を向上させることです。より広範囲の垂直分野に適応するための時間機能を強化し、最後に、大規模なモデルに基づいて AI アプリケーションの革新と改善を継続し、インタラクション モデルの継続的な最適化と再構築を継続します。これらの目標を達成することで、当社のプラットフォームをインタラクティブなエクスペリエンスの最前線に保ちながら、ユーザーエンゲージメントが大幅に向上します。

これらの戦略の実行中に、一連の重要な課題と問題点が徐々に明らかになりました。1 つ目はデータの分散の問題で、複数の種類のリソース データが異なるメッセージ キューに分散しているため、データの統合が複雑になり、アーキテクチャの重複が発生します。第 2 に、現在のプロンプト評価プロセスは手動による参加に依存しすぎているため、作業効率が低下するだけでなく、プロンプトの更新と展開の速度も遅れます。さらに、効果的なデータ フライホイール メカニズムの欠如により、包括的かつ明確なデータ フィードバックを取得することが困難になり、モデル出力コンテンツのパフォーマンスの正確な評価や迅速な反復的な意思決定が制限されます。最後に、大規模なモデルベースのアプリケーション要件の多くは、処理フローの一貫性が高くなりますが、複数のコード セットを個別に記述する必要があるため、リソースと時間が無駄になります。

これらの課題に対処するために、私たちは大規模なモデル アプリケーション開発実践プラットフォームを構築することを提案します。このプラットフォームは、データ統合を簡素化し、AI アプリケーションの迅速な評価とモデルの反復プロセスを簡素化し、不必要な重複や冗長な操作を排除することで全体の効率と出力を向上させるように設計されています。このプラットフォームは、AI によって生成されたデータを一元管理および分析することで、AI アプリケーションにより正確なデータ サポートを提供し、プロンプト生成プロセスをより最適化します。これにより、AI アプリケーションの反復速度が高速化されるだけでなく、モデルの継続的な最適化のための強固な基盤も提供されます。このプラットフォームを通じて、高品質な AI インタラクティブ エクスペリエンスを提供しながら、AI テクノロジーの効率的かつ信頼性の高い実装を実現したいと考えています。

02 基礎知識

2.1 迅速なエンジニアリング

一部の大規模モデル (GPT、Wenxinyiyan など) には強力な言語理解および生成機能がありますが、通常は特定のタスクに対する直接的な最適化が不足しています。現時点では、多くの場合、プロンプト エンジニアリングを通じて大規模モデルの出力を最適化する必要があります。ヒント エンジニアリングは、モデルが特定のタスクの要件をよりよく理解し、そのタスクにおけるモデルのパフォーマンスを向上させると同時に、時間とリソースを節約し、ユーザー エクスペリエンスを向上させるのに役立ちます。

2.2 プロジェクトのライフサイクルを促す

従来の R&D サイクルと同様に、プロンプト プロジェクトにも独自のライフ サイクルがあり、プロンプト プロジェクトのライフ サイクルは一般に次のステップに分かれています。

要件分析: モデルが完了する必要がある特定のタスクと目標、および予想される出力標準を決定します。

データの収集と前処理: タスク関連のデータを収集し、必要なクリーニングと前処理を実行します。

初期プロンプトの設計: 要件に従って初期プロンプトを設定します。一般に、プロンプトのキーワード、期待される出力などは、特定のタスクに基づいて決定されます。

テストと評価: 設計されたプロンプトを使用してモデルをテストし、その出力品質を評価します。

プロンプトの最適化: テスト結果に基づいてプロンプトを繰り返し最適化し、出力の精度と関連性を向上させます。

統合と展開: 最適化されたプロンプトを実際のアプリケーションに統合します。

継続的な監視と調整: 実際のアプリケーションでのモデルのパフォーマンスを継続的に監視し、フィードバックに基づいて調整を行います。

通常の状況では、Prompt の評価と最適化は継続的なサイクル プロセスです。Prompt のパフォーマンスが期待を満たすまで統合および展開されません。展開後は、運用環境によって生成されたデータもタイムリーに監視する必要がありますさらなる開発のための調整と最適化。

写真

△迅速なプロジェクトライフサイクル

03 大規模モデルアプリケーション開発実践プラットフォーム

3.1 プラットフォームの概要

上記の課題を解決するため、リソース情報に基づいて生成されるインタラクティブコンテンツの一元管理と最適化を目的とした、インタラクティブAIアプリケーションに特化したラージモデルアプリケーション開発実践プラットフォームを構築しました。このプラットフォームは、データ ストリームへの統合アクセスと大規模な言語モデルの集中呼び出しを実現し、コンテンツの生成と処理プロセスを大幅に簡素化します。このプラットフォームには現在 6 つの主要な機能があり、その全体的なアーキテクチャを次の図に示します。

即時評価: 注目度の高いリソースの特別な評価など、リソース タイプに基づいた正確な評価をサポートします。オンラインデータサンプリング技術により、評価結果の正確性と信頼性を確保します。

プロンプト ホスティング: プロンプトのオンラインおよびホスティングを含むワンストップのプロンプト管理サービスを提供し、プロンプトの効果的な管理とアプリケーションを保証します。

リソースの選択: インタラクティブ AI アプリケーションの自由な選択とさまざまなリソースへのワンクリック アクセスをサポートし、さまざまな種類のインタラクティブ AI アプリケーションに柔軟なリソース構成オプションを提供します。

モデル切り替え: プラットフォームは、基盤となる大規模モデルをアプリケーション レベルでワンクリックで切り替える機能を提供し、アプリケーションは、ニーズに応じて、低トラフィック環境およびフルトラフィック環境で基盤モデルを柔軟に切り替えることができます。

トラフィック制御: 大規模なモデル リソースに対する各対話型 AI アプリケーションのニーズに基づいて、洗練されたアプリケーション レベルのトラフィック制御が実装されます。

データ フライホイール: リクエストのコンテキスト情報の保存をサポートし、データ チームと協力してアプリケーション レベルのデータ フライホイールを作成して、AI アプリケーション開発の速度を高めます。

写真

3.2 迅速な評価とリリース

3.2.1 迅速な評価

大型モデルアプリケーション開発実践プラットフォームの提供開始により、プロンプト評価のスピードと効率が大幅に向上し、従来手作業に頼っていた煩雑なプロセスを効率的な自動化プロセスに変換し、ユーザーはプロンプトを提案し、特定の評価条件を選択して待つだけで済みます。結果については。次のプロンプト評価フローチャートを通して、プロンプト評価におけるこのプラットフォームの主な利点が次のとおりであることが簡単にわかります。

1. 効率的なデータの選択と処理: ユーザーは、プラットフォームでの評価のために、ホット リソースなどの特定の種類のリソース データを直接選択できます。プラットフォームは、これらのリソースに一致するデータを自動的に抽出し、ユーザーの構成要件に基づいてプロンプトを迅速に組み立てます。これにより、データ処理の速度が向上するだけでなく、評価のランダム性と正確性も確保されます。

2. 複数のモデルを同時に評価する機能: このプラットフォームは、評価用に複数セットのモデルを同時に選択できるため、ユーザーは異なるモデルのパフォーマンスを比較し、評価結果の信頼性と客観性を確保できます。この方法により、無関係な変数が効果的に制御され、評価結果がより正確で信頼できるものになります。

3. 評価プロセスの全体的な最適化: プラットフォームは、評価によって生成されたコンテンツを結果テーブルに永続的に保存し、データの整合性と追跡可能性を保証します。この最適化により、評価プロセスの効率が向上するだけでなく、評価結果の安定性と信頼性も向上します。

写真

△迅速な評価プロセス

3.2.2 プロンプトがオンラインになる

大規模モデル アプリケーション開発実践プラットフォームは、Prompt オンラインおよびホスティングを含むワンストップの Prompt 管理サービスを提供し、Prompt の効果的な管理とアプリケーションを保証します。フローチャートに示すように、プロンプトの評価が完了し、所定の基準を満たしたら、次の手順が自動的に実行され、プロンプトの迅速かつシームレスな起動が保証されます。

1. 自動プロセスの開始: 評価の満足度が設定されたしきい値に達し、手動で確認した後、オンライン プロセスが自動的にトリガーされます。

2. 打ち上げ前検査:システムは、モデル出力内容の精度、適用性、準拠性などを含むがこれらに限定されない最終検査を実施します。

3. 迂回テスト: 小規模なトラフィック ユーザー グループの間でプロンプトを選択的にテストし、実際の効果を評価し、そのパフォーマンスが期待どおりであることを確認します。

4. フルトラフィック展開: オフロード テストで Prompt のパフォーマンスが良好であることが示されると、システムはそれをフルトラフィック環境に展開します。

5. パフォーマンス監視: Prompt がオンラインになった後も、プラットフォームは安定性と効率を確保するためにパフォーマンスを監視し続けます。

この時点で、当社のプラットフォームは即時評価と発売のプロセス全体を効率的にカバーすることが完了しました。

写真

△オンライン即時評価フローチャート

3.2.3 QEP(品質評価プラットフォーム)のオープン化

自動化ツールは効率の向上と人件費の削減において顕著な成果を上げていますが、Prompt の品質評価は依然として手動レビューに依存しています。このプロセスは時間がかかるだけでなく、主観的な判断の影響を受けやすいため、プロンプトの反復の速度と規模が制限されます。さらに、インタラクティブ AI アプリケーションの成長と複雑さの増加に伴い、評価メカニズムの要件も増加しており、従来の手動評価方法では、現代の大規模 AI アプリケーションの急速な開発ニーズを満たすことができなくなりました。

これらの課題を解決し、即時評価の自動化をさらに向上させるため、QEPプラットフォームへの接続を決定しました。QEP プラットフォームは、高度な大規模モデル機能を使用して、プロンプトの効果を自動的に評価してスコアリングすることができるため、人的リソースが大幅に解放され、開発チームがより価値の高い創造的な作業に集中できるようになります。QEP の自動評価ツールを統合することにより、大規模モデル アプリケーション開発実践プラットフォームは、リリースされるすべてのプロンプトが高品質基準を満たしていることを確認しながら、プロンプトをより正確かつ高速に反復できるようになります。これにより、Prompt の最適化サイクルが加速されるだけでなく、より豊かで正確なインタラクティブ エクスペリエンスがユーザーに提供されます。

写真

△プラットフォームプロンプトテストオンラインパノラマ

QEP の統合により、プラットフォームの機能があらゆる面で向上し、プロンプトのライフサイクルにおけるすべてのリンクの包括的なカバーと最適化が達成されました。プロンプトの自動生成と最適化の効率が向上し、AI インタラクティブ アプリケーションの全体的な開発が加速され、ユーザーに高品質のインタラクティブ エクスペリエンスが提供されます。

3.3 データ フライホイールの構築

プラットフォームは Prompt の評価と立ち上げのプロセス全体を実装しましたが、Prompt の実際のオンライン パフォーマンスとユーザーの受け入れについての直接的なフィードバックはまだ不足しています。この情報ギャップを補うために、大規模なモデルによって生成されたインタラクティブなマテリアルに対するユーザーの反応を迅速に取得して分析することを目的として、データ フライホイールを構築することを提案します。このステップは、プロンプトの品質とインタラクティブな効果を向上し続けるために非常に重要です。

3.3.1 フライホイールのデータベース

データ分析はフライホイールを構築する際の最も重要なリンクです。すべてのインタラクティブ AI アプリケーションの大規模モデル アクセス層として、このプラットフォームには当然データ レベルで利点があります。プラットフォームに基づいてフライホイール データ分析を構築するには、主に次の手順が含まれます。

1. インタラクティブ データのキャプチャ: すべてのインタラクティブ AI アプリケーションが大規模モデルと対話するためのハブとして、プラットフォームは大規模モデルによって生成されたすべてのマテリアル情報をキャプチャします。これには、インタラクション量やインプレッション量などの主要な指標が含まれており、その後の分析のための生データが提供されます。

2. データ ウェアハウジングと統合: この情報をデータ ウェアハウジング システムと組み合わせることで、各対話型 AI アプリケーションのパフォーマンスを正確に追跡できます。このデータは包括的​​なビューに統合され、詳細な分析と洞察の抽出が容易になります。

3. 洗練されたプロンプト レベルのフライホイール: より詳細なプロンプト レベルのデータ フライホイールをサポートし、ビジネス パーティがプロンプト レベルで効果やユーザー フィードバックを表示できるようにします。この詳細な観点により、最適化プロセスがより的を絞ったものになります。

4. アラームメカニズムとフィードバックループ:特定のプロンプトによって生成された重要な情報から得られるオンライン収益が予想または平均よりも低い場合、自動アラームメカニズムがトリガーされ、潜在的な問題をビジネス側に通知します。このメカニズムにより、非効率的なプロンプトが確実に発見され、タイムリーに修正されます。

5. データ分析と保存: 大規模モデルの微調整のための基礎データとして、毎日の上位インタラクション データのフォーマット分析と保存。このデータは、モデルの精度と応答性を最適化するために直接使用されます。

写真

△プラットフォームデータ分析フローチャート

上記に基づいて、次の 3 つの重要なデータを作成しました。

1. 日次レポートと分析: 日次ビジネスレポートを作成し、継続的なデータモニタリングとビジネス分析を提供し、意思決定をサポートします。

2. 問題のアラームと処理: 予想よりも低いアラームとレポートは、ビジネス効率を確保するためにどのプロンプトに注意と最適化が必要かを即座に指摘します。

3. データ準備の微調整: 大規模モデルを微調整するための主要な入力として上位データを使用し、ユーザーの行動や市場動向の変化に適応するためにモデルを継続的に改善します。

このようにして、プラットフォームのデータ フライホイールは、プロンプトを最適化するための強力なツールになるだけでなく、AI インタラクティブ システム全体のパフォーマンスを向上させるための重要なリンクにもなります。この包括的なデータ主導のアプローチにより、プロンプトの生成が理論と予測に基づいているだけでなく、実際のユーザーのフィードバックと市場動向をリアルタイムで反映して適応することが保証されます。

3.3.2 フライホイール全景

プラットフォームのデータ出力は、フライホイールの最後の構成要素です。この時点で、実稼働環境での実際のデータ生成、プラットフォームでのデータ分析、およびプロンプトの反復的な、相互に依存して連携する 3 つの重要な部分が含まれています。最適化されたフライホイールの成形。以下はその主要なリンクの一部です。

リアルタイム データ収集: 運用環境に展開されたプロンプトは、ユーザーの操作やフィードバックを反映するデータを継続的に生成します。これらのリアルタイム データはプラットフォームを通じて取得および分析され、その後の迅速な最適化のための貴重な入力を提供します。

継続的な最適化サイクル: これらの分析結果に基づいて、ユーザーのニーズをより適切に満たし、インタラクションの効率を向上させるために、Prompt のコンテンツと戦略を継続的に調整します。この反復プロセスにより、Prompt はユーザーの行動や市場トレンドの変化に確実に適応できます。評価と発売

評価と起動: プラットフォームによる評価後、最適化されたプロンプトがすぐに運用環境にプッシュされます。ここで、彼らはデータを生成し続け、Flywheel のデータ ソースをさらに充実させます。

閉ループ データ フロー: 運用環境で生成されたデータはプラットフォームによって再度キャプチャおよび分析され、自己強化型の閉ループ データ フローが形成されます。このプロセスにより、プロンプトの即時性と関連性が向上するだけでなく、プロンプトの生成と反復プロセスがユーザーのフィードバックや市場の動向と緊密に同期するようになります。

データ フライホイールを通じて、データ駆動型のプロンプト最適化を実装し、各プロンプトが最新の市場データとユーザー データに基づいて生成されるようにします。この包括的なデータ駆動型のアプローチは、Prompt の実用性と魅力を高めるだけでなく、AI インタラクティブ システム全体のパフォーマンスと効率も向上させ、よりパーソナライズされた魅力的なインタラクティブ エクスペリエンスをユーザーに提供します。

04 プラットフォームアプリケーションシナリオ

調査の結果、主要なコンテンツ プラットフォームでは、多数のユーザーがコメント エリアで「仮想キャラクター」と対話していることがわかりました。たとえば、Mixue Bingcheng アカウントがコメント エリアに表示され、多数の対話が引き起こされました。ユーザーの間で。したがって、関連する AI の役割をコメント領域に埋め込み、大規模モデルの推論機能とリソース自体のコンテンツ情報を使用して、大規模モデルが特定の役割を果たし、コメント領域で対話できるようにできないかという仮説を立てました。リソース。「エンターテイメントのモチベーション」を高め、ユーザーを活用してアイスブレイクを図り、インタラクティブな行動を完全に刺激し、ユーザーに感情的価値の満足感を提供します。

4.1 AIキャラクターの迅速な評価と最適化

プラットフォームのローンチ前、AI キャラクターの迅速な評価と最適化のプロセスは非効率的で課題に満ちていました。この従来のプロセスでは、データ分析後にチームが多数の操作と複数回の反復を手動で実行する必要があり、多くの場合、これには数週間から数か月かかり、AI ロールのアプリケーション展開が遅れます。当社のプラットフォームを構築することで、これに革命をもたらしました。統合された自動化ツールと効率的なデータ処理機能により、評価と最適化の速度が大幅に向上し、数週間からわずか数日に短縮されました。この効率の飛躍的な向上は、AI キャラクターがソーシャル メディア インタラクションに迅速に参加できることを意味し、導入プロセス全体が大幅にスピードアップします。さらに、プラットフォームのワンクリック操作機能により、最適化された AI キャラクターのプロモーションと申請プロセスがさらに簡素化され、再開発とローンチの煩雑なプロセスが回避されます。一般に、このプラットフォームは AI キャラクターの迅速な最適化を大幅にスピードアップするだけでなく、全体的な導入効率と柔軟性も向上させ、ソーシャル メディア インタラクションに高速かつスムーズな AI アプリケーション エクスペリエンスをもたらします。

4.2 AI キャラクター プロンプトの作成時に遭遇した問題と解決策

プラットフォームの効率は向上しましたが、プロンプト構築プロセス中の次のような問題により、依然として AI キャラクター プロンプトの生成が遅くなります。

  • 複雑なコンテキスト理解のエラー: Prompt の構築中に、特定の文化的背景を持つ新しいインターネット用語やユーモラスなミームを理解するという課題に遭遇しました。大規模な言語モデルの強力な言語処理能力にもかかわらず、これらの複雑なコンテキストを理解するのは依然として困難です。この問題を解決するために、私たちは細心の注意を払ったデータ注釈戦略を実装し、データセット内のこれらの難しいコンテンツに対して詳細な文脈上の注釈を実行し、それらに正確な感情ラベルを割り当てて、モデルがそれを理解し、正しい文脈で適用できるようにしました。具体的な表現。同時に、モデルがユーザーの意図をより正確に把握し、それに応じた応答を生成できるように、明確な説明を含むプロンプトを設計しました。これらの改善により、モデルは文化的に特有のインターネットスラングやユーモラスなミームをよりよく理解し、反応できるようになりました。

  • 1 つのサンプル ショット:私たちは、選択した少数のサンプルを提供することでモデルの理解と生成をガイドすることを期待して、最初は少数ショット学習法を試しました。ただし、例が多すぎると、モデルがこれらの特定の例に簡単に過剰適合し、新しいまだ見たことのない状況に一般化できなくなることがわかりました。さらに、多数の Few-Shot サンプルを処理すると、計算負荷が増大し、応答の効率が低下します。ゼロショット学習の実験では、特にこれらのミームに微妙な感情的または皮肉的な要素が含まれている場合、モデルが複雑なインターネット用語や文化的ミームの意味論を正確に把握できない場合があることがわかりました。さらに、具体的な例が欠如しているため、モデルは応答を生成する際の文脈上の関連性が欠けています。上記の方法の限界を考慮して、最終的にはワンサンプルショット戦略を採用しました。各プロンプトに対して、特定のコンテキストにおけるセマンティクスと感情をカバーするのに十分な代表的な、慎重に選択されたサンプルが提供されます。この単純な例は、モデルが特定のインターネット用語やミームについての基本的な理解を確立するのに役立ちます。たとえば、人気のあるインターネット ミームの場合、ミーム自体のサンプルを提供するだけでなく、その起源、使用シナリオ、および予想される反応の説明も含めます。このような単一だが有益な例により、モデルは多数の例に過度に依存することなく、新しいフレーズやミームをよりよく理解し、適応することができます。ワンサンプル ショットを通じて、モデルの一般化機能とパーソナライズされた応答のニーズのバランスをうまく取り、コンピューティング リソースの効率的な使用を確保しながら、AI キャラクターがユーザーとより正確に対話できるようにします。

4.3 AIキャラクターエフェクト

コメントエリアにAIキャラクターが登場した後、ユーザーの参加意欲とコメントエリアのアクティビティが大幅に増加し、コメントの雰囲気が効果的に高まりました。AIキャラクターへのコメントも多くのネチズンに愛されており、次々に「いいね!」や返信が寄せられている。以下はAIキャラクターの効果を示すいくつかの写真です。

写真

写真

写真

写真

写真

05 概要と展望

大規模モデルのアプリケーション開発実践プラットフォームを構築することで、Prompt の評価、起動、継続的な監視と調整のプロセス全体を実装することに成功し、インタラクティブ AI アプリケーションのイテレーション速度を大幅に加速しました。しかし同時に、インタラクティブなビジネス シナリオの複雑さと多様化により、大規模なモデルによって出力されるコンテンツが特定のシナリオのニーズを必ずしも完全に満たすわけではないという、新たな課題にも直面しています。この問題を解決するために、教師あり微調整 (SFT) やヒューマン フィードバックからの強化学習 (RLHF) など、より高度な微調整テクノロジを導入する予定です。これらのテクノロジーにより、大規模モデルのより深いカスタマイズと最適化が可能になり、モデルの出力が複雑な対話シナリオにより適したものになることが保証されます。

- 終わり -

推奨読書

イベントループの謎を解明する

Baidu 検索表示サービスの再構築: 進捗と最適化

Baidu APP iOS パッケージサイズ 50M の最適化実践 (7) コンパイラの最適化

Baidu 検索コンテンツ HTAP テーブル ストレージ システム

ビッグモデルの時代、「誰でもAIができる」Baidu開発者プラットフォームとはどのようなものでしょうか?

有名なオープンソース プロジェクトの作者が躁状態で職を失った - 「オンラインでお金を求めている」 スターなし、修正なし 2023 年世界のエンジニアリング成果トップ 10 が発表: ChatGPT、Hongmeng オペレーティング システム、中国宇宙ステーション、その他の選ばれた ByteDance Google、2023 年に最も人気のある Chrome 拡張機能を発表学者 の倪光南氏: Xiaomi 携帯電話 BL のロックを解除するために、 輸入 HDD を国産 SSD に置き換えることを願っていますか? まず、Java プログラマーの面接の質問をします. Arm が 70 人以上の中国人エンジニアを解雇し、中国のソフトウェア ビジネスの再編を計画. OpenKylin 2.0 が明らかに | UKUI 4.10 ダブル ダイヤモンド デザイン、美しく高品質! Manjaro 23.1 リリース、コード名は「Vulcan」
{{名前}}
{{名前}}

рекомендация

отmy.oschina.net/u/4939618/blog/10323021
рекомендация