AI 大型モデルの工業化開発を突破し、生成 AI がフルチェーン サービス プロバイダーを歓迎

 LLM 大規模モデルと生成 AI は、2023 年上半期に急速に爆発するでしょう。ゴールドマン・サックスとマッキンゼーだけが生成 AI の経済予測を発表しているわけではありません。彼らは皆、生成 AI が世界の生産性を大幅に向上させ、世界的な経済成長をもたらすと信じています。数兆ドル規模のLLM大規模モデルをカリフォルニア大学バークレー校とスタンフォード大学が相次いで発表し、世界トップのLLM大規模モデルは30近くに達したが、これには2000年に登場した多くのLLM大規模モデルは含まれていない。中国市場です。

LLM の「100 モデル戦争」の到来により、業界ユーザーは、既存の LLM 大型モデルに基づいて、業界および企業向けにカスタマイズされた大型モデルと生成 AI アプリケーションをより迅速に開発する必要があります。2023 年 7 月 6 日に開催された 2023 年世界人工知能会議 (WAIC) で、世界をリードする AI 企業と 27 年以上協力してきた Appen は、インテリジェント LLM 大型モデル開発プラットフォームを立ち上げ、生成 AI の戦略的アップグレードを発表しました。 — AI データ サービスからフルスタック AI サービスへの「輪を破る」。

Appen Intelligent LLM 大規模モデル開発プラットフォームは、一連の大規模モデル データ準備、モデル トレーニング、モデル推論、モデル展開アプリケーションを備えた業界指向の AI を提供し、データ セット管理、データ ラベル付け、コンピューティング リソース スケジューリング、モデル評価、スタック機能は、企業が大規模なモデルを簡単に採用し、生成的な AI アプリケーションを構築し、エンド ユーザーに革新的なエクスペリエンスを実現するのに役立ちます。さらに、Appen LLM 製品ラインには、基本データ、ベースライン モデル、モデルの評価と微調整、アプリケーション開発、その他のフルチェーン製品、プラットフォーム、サービスも含まれています。

 (Dr. Tian Xiaopeng、Appen グローバル上級副社長、中華圏および北アジア統括マネージャー)

「2023 年後半、LLM 大規模モデルと生成 AI 市場は、大きな爆発と成長傾向を示すでしょう。生成 AI の時代はまだ始まったばかりです。」と Appen グローバル上級副社長、中華圏および北部担当ゼネラルマネージャーは述べています。アジア マネージャーのティアン・シャオペン博士はこう語った。「Appen は、高効率で経済的な大量生産産業の大型モデルと生成 AI アプリケーションに焦点を当てており、さまざまな産業のインテリジェントな変革を完全に支援します。」

戦略的アップグレードの時期

2023年前半はLLM基礎大型モデルの「春秋戦国時代」とも言える 世界各地から中国に向けて多くの基礎大型モデルが誕生し、さらに多くのチームが運営・研究に参入基本的な大型モデルの開発。2023年6月末現在、中国から85の大規模モデルがGithubに収集されており、LLMの基本的な大規模モデルを中心に、業界や特定分野向けの一部の大規模モデルに加え、世界トップクラスの基本的な大規模モデルも含まれています。スケールモデル、「百模型決戦」はもはや大げさな表現ではない。

「百モデル戦争」は依然として熾烈な戦いが続いているが、AIがテクノロジー界を突破することにも成功し、より幅広い人々の注目と注目を集めている。IBMビジネスバリュー研究所が6月末に発表した年次CEO調査によると、世界的には、インタビューを受けたCEOの4分の3が、最先端の生成型人工知能を備えた企業は競争上の優位性を獲得できると考えている。中国では、Gartner China Enterprise Artificial Intelligence Trend Wave 3.0 で、中国企業が人工知能プロジェクトをプロトタイプから製品化に移行しつつあると指摘し、ほとんどの企業はもはや AI 機能が必要な理由にこだわるのではなく、AI エンジニアリング機能の構築にもっと注意を払っています。

2023年下半期には、「100モデル戦争」からLLM大型モデルの工業化・大量生産・エンジニアリングの流れが明確になり、特に多くの業界・法人顧客が既存LLMの選び方に注目を集めています。大規模モデルは、業界や企業のビジネス シナリオに適応するように微調整され、AI を真に活用して業界や企業の生産性を向上させます。簡単に理解すると、業界の大規模な LLM モデルを効率的かつ経済的に量産し、企業内にエンドツーエンドの大規模な業界モデルを実装して生産性を真に向上させることが AI の焦点となります。 2023年後半の市場。

2023 年の初めに、AI 企業とエンタープライズ AI に高品質のラベル付きデータを提供することに長年取り組んできた Appen は、状況を評価して大胆に「賭け」、AI データからの戦略的なアップグレードを包括的に開始しました。サービスからフルスタックAIサービスまで、垂直産業向けAIサービスプロバイダーを目指します。Appenの新しいグローバルCEOであるArmugan Ahmad氏は、同社の2022年年次報告書の中で、AIデータラベリングが基盤であり、生成AIに代表されるフルスタックAIサービスが成長のS字カーブであり、Appenの次の戦略的焦点でもあると述べた。Appen はすでに強力な AI データ ラベリング ツール、プラットフォーム、サービスを備えており、次のステップはこれに基づいて工業化された大量生産インダストリー モデルと生成 AI アプリケーションを迅速に推進し、数兆の新たな経済ボリュームを開拓することです。

大規模モデルのワンストップ開発

LLM 大規模モデルと生成 AI アプリケーションを業界で迅速に工業化して量産したい場合は、業界指向の大規模モデル開発プラットフォームが必要であり、これは AI 市場のホットスポットであり焦点でもあります2023年後半に。2023 年上半期には、一部のテクノロジー企業が業界指向の大規模モデルのカスタマイズ開発やソリューションを開始しましたが、専門的なサードパーティの大規模モデル開発プラットフォームやエンドツーエンドの AI 大規模モデル開発サービスはまだ提供されていません。市場では空白。

Appen Smart LLM Large Model Development Platform は、Appen China チームによって開発されており、LLM ラージ モデルの微調整 (Fine-tune) のための開発プラットフォームです。そして顧客サービス。Appen China のプロダクト マネージャーである Zhou Bo 氏は、Appen Smart LLM 大規模モデル開発プラットフォームにはデータ、モデル、コンピューティング リソース管理という 3 つのモジュールが含まれていることを紹介しました。

 (Appen Intelligent LLM 大規模モデル開発プラットフォームのアーキテクチャ図)

LLM の大規模モデルの開発では、高品質のラベル付きデータが重要です。ChatGPT が優れている理由は、高品質の手動アノテーション データの導入にあります。カリフォルニア大学バークレー校の LLM リーダーボードの分析では、高品質の微調整データ セットがモデル サイズよりも重要であることが判明しました。特に、事前トレーニングおよび微調整段階で高品質のデータ セットを管理することが、モデルのサイズを削減するための重要な方法です。モデルの高品質を維持しながらモデルを作成します。高品質のラベル付きデータは非常に重要であり、モデルの品質を維持しながらモデルの結果を微調整し、モデルのサイズを削減するための重要な方法であることが、ますます多くの研究で判明しています。

Appen Intelligent LLM 大規模モデル開発プラットフォームのデータ モジュールは、Appen China のもう 1 つの人気製品である MatrixGo エンタープライズ レベルの高精度データ ラベル付けプラットフォームから来ています。MatrixGo は、深層学習および機械学習データ ラベル付けのためのエンタープライズ レベルのプラットフォームです。には、強力なラベリング ツール セット、AI 支援ラベリング、柔軟で視覚的なワークフロー、オープン API と外部データ プラットフォームおよび閉ループ データの統合が備わっています。LLM の開発ニーズに応えて、Appen China 開発チームは MatrixGo テクノロジーを組み合わせて LLM 大規模モデル開発プラットフォームのデータ モジュールを開発しました。これにより、ラベル付けコストを継続的に削減しながら、データ ラベル付けの品質と効率を確保できます。

Appen Intelligent LLM 大規模モデル開発プラットフォームのデータ モジュールには、データセット管理とデータ収集アノテーションが含まれており、その中には、データセット管理にはデータ処理、データ検索、データ視覚化、データ スライスなどの機能が含まれ、データ収集アノテーションには人事管理、ワークフローが含まれます。エンジン、ラベリング ツール エンジン、自動ラベリング アルゴリズムおよびその他の機能。

Appen Smart LLM 大規模モデル開発プラットフォームの中核はモデル モジュールです。これには、モデル評価、モデル微調整、モデル展開の 3 つの部分が含まれます。そのうち、モデル評価では、A/B テスト、標準コーパス テスト、カスタム テスト、テスト結果の可視化やモデル解析などの機能、モデルファインチューニングによるオープンソースモデルライブラリ、モデル管理、トレーニングタスク管理などの機能、モデルデプロイによる自動デプロイ、動作監視、標準APIや自動パッケージングSDKなどを提供します。

モデル評価は主に、異なるオープンソースの大規模モデルまたは同じ大規模モデルの異なるバージョンで A/B テストを実施し、関連するテスト結果を分析した後、標準コーパスまたはカスタム コーパスでのテストを含む、オープンソースの大規模モデルの選択に役立ちます。と視覚化を行い、モデル パラメーターやリソースの使用状況などに基づいて微調整する大規模モデルを選択します。

 (Appen Intelligent LLM 大規模モデル開発プラットフォームでのモデル微調整の例)

モデルの微調整では、高品質のラベル付きデータと RLHF 人工フィードバックを使用して、選択した大規模モデルの学習を強化し、さまざまなシナリオに合わせて微調整します。モデルの微調整の結果はモデルの評価に返され、目的の効果が達成されるまでこの 2 つがリンクされてモデルの反復が完了します。モデルのデプロイメントは、微調整された大規模なモデルを顧客のコンピューティング リソース環境にデプロイすることであり、API または SDK の形式で外部に提供できます。

Appen Intelligent LLM 大規模モデル開発プラットフォームのコンピューティング リソース管理は、CPU および GPU リソースを含む顧客のコンピューティング リソースのタスクとスケジュール リソース、さらに上位層アプリケーションのサポートとスケジューリングを管理します。

Appen Smart LLM大規模モデル開発プラットフォームは、Appen China自身が開発した基本大規模モデル、または顧客またはサードパーティが所有するオープンソースの基本大規模モデルを使用できます。

自社開発の基本的な大規模モデルに関しては、Appen China R&D チームは主にオープンソース コミュニティの活動に基づいており、他の選択ソリューションも水平的に評価しています。Appen China が自社開発した大規模モデルの特徴は、一般的なトピックに関する会話や専門的背景を持つコーパスなど、独自のデータセットを主に微調整することです。Appen 自体は、250 以上のラベル付きオーディオ、画像、テキスト、ビデオ データセットを提供しており、これらの高品質のラベル付きデータセットは、大規模モデルの事前トレーニングにとって非常に貴重です。さらに、Appen China の研究開発チームは現在も学界と産業界の進歩に注目しており、モデル構造、最適化手法、展開効率の面で自社開発の大規模モデルを常に最適化しています。

サードパーティの大規模モデルとの連携に関しては、Appen Global は NVIDIA、AWS などと緊密に連携しており、特に NVIDIA などの大規模モデルやエンタープライズレベルの AI 開発プラットフォームとの連携を強化しています。大手メーカーのスケール モデル、AI プラットフォーム、ツールを利用して、業界や企業にエンドツーエンドのワンストップの生成 AI ソリューションを提供します。さらに、Appen は Cohere や Reka AI などのエンタープライズレベルの大規模モデルのスタートアップとも協力し、安全性の高いカスタマイズされた独自モデルを提供しています。中国でも、Appen China はよく知られた基本的な大規模モデルと協力して、これらの大規模モデルの特性と適用可能なシナリオを理解し、顧客に専門的なモデル選択ソリューションとコンサルティング サービスを提供します。

AIリーダーとともに成長する技術共創

データ配信における豊富な経験を持つプロバイダーとして、Appen のインテリジェント LLM 大規模モデル開発プラットフォームの最大の競争上の利点は、ゼロサンプルおよび半教師あり学習の観点からの反復モデルとデータ配信への迅速な対応にあります。

 Appen は、長期にわたる教師あり学習データのラベル付けサービス プロバイダーとして、プロジェクトの実施において多くの実践経験を持っており、LLM トレーニングや微調整タスク、生成 AI アプリケーションのためのデータの価値を継続的にマイニングできます。主な利点は次のとおりです。

まず、お客様のアルゴリズムアプリケーションとともに成長します。業界の顧客が初期段階で生成 AI を実践する場合、最初にプロジェクトの要件を明確にすることは難しく、協力し、同時に探索し、開発し、継続的な反復を通じて最終的にアプリケーションの構築を完了する必要があります。

Appen は配信サイクルの管理と調整が得意です。データ サンプリング、モデルの最適化、アプリケーションのテストなどをバッチで顧客に配信できます。モデルの最適化はデータ サンプリングと交互に実行できます。小規模なサンプルと増分学習を使用して、プロジェクト内でモデルを迅速に反復し、データ収集標準がアプリケーション テストに迅速に統合されます。ラベリング プロジェクトは、顧客の LLM パフォーマンス テスト前の「品質前検査」とみなすこともできます。お客様の業界やビジネスシナリオに関する知識、および事前トレーニングです。

2 つ目は、「巻き込まれる人間」をよりよく理解することです。開発プラットフォームは、収集およびラベル付けのプロセスにおける人間のさまざまなインタラクティブな行動を分析します。Appen はこの分野で豊富な経験を持っており、RLHF アルゴリズムの「報酬関数」に変換でき、よりきめ細かいマイニングが可能です。ラベリング情報などにより、データ マイニングの側面についての深い理解を反映して、大規模なモデルを準備するためのより多くのデータ 栄養素が提供されます。

第三に、長期的な協力はデータ収集と標準化において規模効果をもたらす可能性があります。Appen の開発プラットフォームには、大規模で安全かつ高品質なデータのほか、ビジョン、テキスト、音声の完全な業界ベンチマーク モデルがあり、複数の標準取得プロジェクトで実践されています。各プロジェクトの完了段階では、優れたパフォーマンスと顧客のニーズを完全に反映したモデル アルゴリズムと高品質のデータ ベンチマークを作成できます。

New Appen: フルチェーン AI サービス プロバイダー

LLMラージモデルが世界中で普及して以来、ラージモデルがAIの世界を支配するという議論がありました。しかし、2023 年前半の「百モデル戦争」の後、誰もがディープ ラーニングと LLM ラージ モデルが AI アプリケーションにとって同様に重要であることに徐々に気づきました。いわゆるLLMラージモデルとは、モデルパラメータが数百億から1,000億を超える汎用の基本的なAI大規模モデルを指し、「インテリジェントな創発性」を備えていますが、パラメータが大きく、コンピューティングリソースが大きいという特性により、ディープラーニングと機械学習は、実際のアプリケーションではかけがえのない価値を持っています。

Appen のグローバル シニア バイスプレジデント兼大中華圏および北アジア担当ゼネラル マネージャーの Tian Xiaopeng 博士は、将来の AI 市場とスマート エコノミーに向けた Appen の戦略はディープ ラーニングと大規模モデルの両方を使用することであると述べました。

まず、ディープラーニングと機械学習は、現在のデジタル変革、特にリアルタイムコンピューティングやエッジコンピューティングなどのエンタープライズレベルのシナリオにおいて効果的な役割を果たしており、スマートカーやスマートインターネットの分野でも重要な役割を果たしています。 Appen は今後もディープ ラーニングと機械学習向けの AI データ サービスに固執し、同時に、トップ AI 企業のディープ ラーニングと機械学習プラットフォームを使用したエンドツーエンドのソリューションを形成して、ニーズに応えていきます。 AI エンジニアリングの実装に対する企業の現在のニーズ。

 2023 年 6 月末、Appen のエンタープライズレベルの高精度人工知能支援データラベル付けプラットフォーム MatrixGo の SaaS バージョンが正式にリリースされました。MatrixGo はリリース以来、数千の AI データ ラベリング プロジェクトを経験し、さまざまな業界やさまざまな種類のプロジェクトから豊富な実践経験を蓄積してきました。MatrixGo SaaS バージョンの開始により、企業顧客は MatrixGo をより迅速に展開し、最短 1 日でオープンして使用し、本番環境に導入できるようになり、同時に専門的なトレーニングとカスタマー サービス サポートを受けることができます。は、すぐに更新される最新バージョンの MatrixGo を引き続き顧客に提供し、企業顧客が最新かつ最先端のデータ サービスを使用して高品質の深層学習および機械学習アプリケーションを作成できるようにします。

さらに、Appen は LLM テクノロジーを使用してデータ注釈ツールとプラットフォームを改善し、ディープラーニングおよび機械学習データ サービスにおける Appen の競争上の優位性を継続的に強化しています。新しく発売されたドキュメント インテリジェンス製品は、スキャンされたドキュメントやドキュメントの写真からコンテンツを抽出するなど、非構造化ドキュメントから情報を 99% の精度で自動的に抽出でき、エンタープライズ AI データのソースを大幅に拡張します。NLP 自動ラベル付けでは、小規模サンプルまたはゼロサンプルの学習と LLM モデルを使用してデータを自動的にラベル付けし、データの供給を加速します。2022 年に、Appen は世界トップのビジュアル AI 合成データ プロバイダーである MindTech にも投資しました。MindTech は、サンプルが少ない場合やサンプルがゼロの場合でも問題に対処できる、一連の高品質、多次元、マルチアングルの合成リアル画像を提供できます。 。

第二に、Appen は LLM 大型モデルに戦略的投資を行い、Appen インテリジェント LLM 大型モデル開発プラットフォームに代表される LLM 製品ラインを立ち上げます。Appen の LLM 製品ラインには、基本データ、ベースライン モデル、評価と微調整、および上位レベルの生成 AI アプリケーションという 4 つの主要な部分が含まれています。

 LLM 基本データは、完成したデータ セット、データ クローリング、データ クリーニング、オープン ソース データなどを提供し、LLM の基本的な大規模モデルのトレーニングと大規模モデルの微調整のための高品質のデータ セットを提供します。

ベースラインモデルは、自社開発モデルとサードパーティのオープンソースまたは商用モデルを提供し、顧客所有モデルをサポートします。Appen の自社開発モデルは利用シナリオに応じてカスタマイズでき、運用状況に応じてモデルの民営化ボリュームを制限できます。リソース要件、民営化された展開のサポート、クラウド プラットフォーム API 呼び出しなど、サードパーティの協力モデルには、Reka、Cohere、および国内外の優れた商用およびオープンソース モデルが含まれます。

評価と微調整には、エキスパート コーパス、RLHF、A/B テスト、モデル評価などの LLM 大規模モデル トレーニング サービスが含まれます。Appen は世界中に何百万ものクラウドソーシング データ コレクターとラベル作成者を擁し、235 以上の言語と方言をサポートしているほか、金融、小売、工業、医療業界向けの専門クラウドソーシング リソースもサポートしています。以前は、これらのリソースはディープ ラーニングと機械学習のデータ アノテーションを提供していましたが、将来的には、LLM の大規模モデルのトレーニング ニーズに直面して、これらのリソースは迅速な単語出力コーパス、専門分野コーパス、および LLM への人工埋め込みも提供できます。大規模モデル トレーニングの人工フィードバック強化リンクは RLHF アルゴリズムを実装し、モデルの専門分野の能力を向上させます。

モデル評価には、A/B テスト、モデル評価、赤青対立、ベンチマーク テストなどの方法が含まれます。Appen の LLM 専門家とクラウドソーシング リソースが連携して、異なる大規模モデルや同じ大規模モデルの異なるバージョンの出力結果を評価します。出力は、差別やポルノなどのリスクを回避し、複数ラウンドの対話対決におけるモデルの能力を評価し、業界標準のコーパスを使用して大規模モデルのベンチマークを行うために評価されます。

第三に、長期的には、Appen は深層学習と機械学習を LLM 大規模モデルと組み合わせて、企業顧客向けにエンドツーエンドの生成 AI アプリケーションを開発し、データからモデル、アプリケーション開発、アプリケーション開発サービスに至るフルチェーンのコンサルティングを提供します。そして中核となる AI サプライヤーになります。

LLM および生成 AI トラックの他の参加者と比較して、Appen は非常に強固なデータ「シャーシ」とデータ ツール チェーン、プラットフォーム、人材の完全なチェーンを備えており、データ機能は LLM と生成 AI の王様です。さらに、Appen は世界的な AI 企業および AI エコシステムとの 27 年にわたる協力の歴史があり、多数の企業および業界の AI 導入プロジェクトに参加し、エンタープライズレベルのプロジェクトの導入において豊富な経験を持っています。これらは、LLM と生成 AI の時代における Appen の自己転覆の強固な基盤を築きました。

将来に期待: LLM 大型モデルと生成 AI は世界的な知能進化の「特異点」であり、LLM 大型モデルと生成 AI から Appen の新しい姿勢が現れています。トップの AI データ サービス プロバイダーから、早期に業界に参入した LLM 大規模モデルと生成 AI トラック、そして生成 AI アプリケーションとフルチェーン AI コンサルティング開発に至るまで、Appen は過去 27 年間の蓄積に基づいています。世界的な知的進化「シンギュラリティ」の瞬間に、機会を捉え、迅速に変化し、グローバルな AI エコシステムと連携して生成 AI の素晴らしい未来を切り開きましょう! (文/ニン・チュアン)

おすすめ

転載: blog.csdn.net/achuan2015/article/details/131571797
おすすめ