SenseTime ChatGPT「相談」はこちら!数千億のパラメーターを持つ大規模なモデルに基づくオープン API、その経験はここに記録されています

青飛寺から送られたジンレイ
Qubit | パブリックアカウント QbitAI

国内のChatGPTバトルは、すでに熾烈な局面を迎えています。

ちょうど今、SenseTime はSenseChatと呼ばれる自社開発の ChatGPT 製品を正式にリリースしました

64ddf8c156d34b82bc8b36c1f1007cf6.png

名前だけでも特筆に値します。

議論の「商」は、それがSenseTime独自の「商子世代」の産物であることを反映するだけでなく、全体として、議論と意見交換の風味を持っています.

結局のところ、ChatGPT のような製品を使用する過程では、たまたま人間とマシンのコラボレーションのプロセスであり、やみくもに尋ねたり答えたりするのではなく、ガイダンスやその他の方法で出力結果を理想的なものにする必要があります。

議論の背後では、SenseTime が開発した 1000 億個のパラメーターを持つ自然言語処理モデルに依存しています。

このモデルの背後には、 SenseTimeが立ち上げた最新の SenseNova 大規模モデル システムがあります

SenseTime のリリースがこれまでの国内の ChatGPT プレーヤーと異なるのは、まさにこの能力のためです。

  • Miahua : AI コンテンツ作成コミュニティ プラットフォーム。

  • Ronin : AI デジタル ヒューマン ビデオ生成プラットフォーム。

  • QiongyuGewu : 3D コンテンツ生成プラットフォーム。

c4c4c51aff25d7e36f3108229fc679bd.png

さらに重要なことは、現場での SenseTime CEO の Xu Li の説明によると、上記の AIGC 製品は、医療、ショートビデオ、教育、マーケティング、開発などの産業分野に焦点を当てるということです。

6c946c118a882061f47dccced260bf96.png

しかし、このテクノロジーの戦いの波は本当に激しさを増していると言わざるを得ません。

「交渉」体験記

では、SenseTime の AIGC 製品の効果は何ですか?

私たちも目の前で体験しました。

本当に議論できるのか、まずはこの商品の議論を見てみましょう。

マルチラウンド対話能力のデモンストレーション

人間と機械との対話と共創を複数回行う必要があるため、それと話し合ってストーリーを作成することは良い例です。

一緒に子供向けの物語を作りましょう。ルールは、私が最初に 1 つの文を言い、あなたが別の文を交互に言うというものです。私が物語が終わったと言うまで、それは終わった。わかりますか?

04eb8d4fe867102d95d3fc83e6f27461.png

私たちが指示を出した後、「議論」は理解を表明し、「あなたからの一文、私からの一文」の旅が始まりました。

人間: シャオ フアは、釣りが大好きな子猫です。
ディスカッション: 小華は川で釣りをしていて、大きな魚を釣り上げました。

人間: 大きな魚が小さな花に言いました。「帰らせてください。家にはまだ小さな魚が待っています。」
ディスカッション: Xiaohua は親切で、Big Fish の要求に同意し、Big Fish を川に戻します。大きな魚は感謝の気持ちを込めて泳ぎ去り、小華は釣りを楽しみ続けました。

このプロセスから、「相談」がユーザーのセマンティクスを理解し、ストーリーにおける役割と関係性を理解し、ユーザーの考えを導き出し、これに基づいてストーリーの作成を完成させることができることは容易に理解できます。複数回の対話の形式。

(「ディスカッション」でおとぎ話を作らせると、丸一日遊べそうです。)

それだけでなく、経験の過程で、「交渉」にはある種の共感力があることもわかりました。

たとえば、途方に暮れているときは、次のように質問できます。

自己認識を改善し、自分自身をよりよく理解するにはどうすればよいですか?

この時の「議論」は、問いかけの背後にある人間の本当のニーズを掴むことができるようで、「自分を愛することを学ぶ」「自分を肯定し励ますことを学ぶ」という答えは特に心温まるものです。

c50b7ba9ee041144720606ec1a721cc3.png

もちろん、複数回の対話は、対話ロボットの機能のほんの一部です。

次に、ネチズンが AI についてからかうことが多い多くの問題で、より難しい挑戦を開始します!

「妻の言うことはすべて正しい」ではなく、事実だけを認識する

もちろん、作成する能力はチャットボットの能力の 1 つですが、事実を尊重することも非常に重要です。

これまでネチズンたちから悪口を言われた「妻が正しい」という発言に、「議論」はどのように反応するのだろうか。

149d9ead98c3ab6cfc126f12fe94edda.png

ええと、私の妻は事実に直面して本当に良くありません。

もっと空想的なナンセンスを考えてみましょう:

次の発言に時代錯誤が含まれているかどうか教えてください:ラルフは硫黄島のビーチに対する連合軍の空爆の間、iPhoneに向かって大声で話しました。

b8f88ef7594d0c0103d29490ec926ff4.png

このようなナンセンスに直面して、「ディスカッション」は、iPhone が第二次世界大戦の背景と一致していないことを直接指摘しました.文の意味を理解するだけでなく、文の合理性を判断することもできます。しようとしています。

では、非常に複雑な論理問題についても、「議論」は扱いやすいのでしょうか?

トピックを聞いてください:

False と True が False で、True で False ではないとしますか?

b035aee862d268c94891e785c0103f80.png

実を言うと、人間は「迂回問題」について長い間考えなければならず、「議論」は数秒で結果を出すだけでなく、推論プロセスを一緒に与えることができます。

長いテキストも保持可能

先ほど申し上げたように、「コンサルテーション」はTo Bのプロダクトですので、解決すべき問題が「断片的」であってはなりません。

この目的のために、SenseTime はまた、「相談」の背後にある大規模モデルに基づいてその場でデモンストレーションを行い、ユーザーが新しい知識を習得して理解するのを支援するアシスタント ツールを開発しました。これは、超長いテキストを簡単に保持できる種類のものです。

たとえば、「特許法」のコピーを与えることで、多くの専門的な質問をすることができます。

特許を取得できるのはどのようなものですか?

c5727e6f39ea8ee670615ff0a4eff00d.png

結果から判断すると、このツールは「特許法」から対応する結果を直接コピーするのではなく、モデルが質問を理解した後に回答を生成して要約します。

この能力に基づいて、今後どれだけ作業効率が向上するかがわかります。

c9d903f377cfbe343c3a4bb06fe3a321.png

それだけでなく、先ほど提出した「特許法」は 2020 年版であり、今年、国家知識産権局は特許出願の新しい要件を提示しました。

「今年のレギュレーションに新たな変更はありますか?」という質問への回答からも容易に理解できます。このモデルは最新の情報を取り入れており、合理的な回答を提供しています。

別の例もビッグ言語モデルに基づいており、SenseTime の開発者向けAI コード アシスタントは、コード補完、コメント生成コード、テスト コード生成、コード翻訳、コード修正、コード リファクタリング、複雑性分析などの機能を提供できます。

AIコードアシスタントは、中国語、英語、および複数のプログラミング言語を同時にサポートでき、開発者のパーソナライズされたコーディングスタイルにすばやく適応できることが理解されています.

655b5e989891024af0ec3f8dafa7e79a.gif

SenseTime の内部テストの結果によると、「AI コード アシスタント」を使用した後、コードの記述効率が 62% 向上し、Humaneval テスト セットの合格率は 40.2% に達します。

2秒でできるマスクの中国旅行記

対話ロボットに加えて、SenseTime の AI 絵画製品「Miaohua」もこのリリースのハイライトです。

言うことはあまりありませんが、直接効果があります。

ネチズンによって破られたプロンプトも見てみましょう。

1980年代の中国で、マスクは当時の中国の服を着て河南省の田舎にいました。

d8052d6ebfadfbb4e8f468506d62d9ab.png

まぁ、そんな匂いです。

さらに重要なのは、512K の画像を生成するのに 2 秒しかかからないことです!

それだけでなく、ライブデモンストレーション中に、SenseTime は香港スタイルの美しさの現実的なバージョンも示しました。

4663b722fbeb462244d65151a01660ba.png

また、この写真の作成には 2 秒かかりました。この写真は、聴衆から多くの「すごい」を引き付けました。

3083586af5bd99a4e78be833dfe1db82.png

では、このような文氏の興味深い絵は別として、「苗花」の作品は業界で応用できるレベルに達することができるのでしょうか?

私たちは実験を続けています:

明るいシーン、空撮、古代中国の都市、クリスタル、魔法、ファンタジー、豪華な光の効果、透明度、鏡面反射、豪華な光、複雑なディテール、細かいテクスチャ、超現実的、一眼レフ写真、広角レンズ、写真、現実、シャープなフォーカス、超鋭い。

8ced29091f3422db033af17172783a53.png

そのような壮大なシーンは、想像力を現実に引き込むようなものだと言わざるを得ません。

宇宙探査のテーマに関連する高解像度の大きなポスターを生成したい場合は、これも利用できます。次の文を入力するだけです。

空に雲が渦巻く巨大なガス巨大惑星の月を周回する光沢のある宇宙船、ガス巨大惑星の前の月の前の宇宙船、美しいSFアート、シュールな空想。

66d36f2ff8183bdd243ceda03cb07a29.png

「Miaohua」がテストに耐えられる種類の AI であることは容易に理解できます。

Wen Shengtu に加えて、AI デジタル ヒューマン ジェネレーション プラットフォームを見てみましょう。

SenseTime の「Ruying」は、自然な声と動き、正確な口の形、複数の言語に堪能なデジタル ヒューマン クローンを生成するために、5 分間の実生活のビデオ素材しか必要としないことが理解されています。

5decd10048bb2e222aa47c9b42c994cb.gif

もう 1 つの例は、「Qiongyu」と「Gewu」です. Neural Radiation Field Technology (NeRF) に基づいて、大規模な 3 次元シーンと洗練されたオブジェクトを効率的かつ低コストで生成でき、メタバースと仮想世界の新しい想像空間を切り開きます。実際の融合アプリケーション。

1fc099e991348d5fd238c6aadf154394.png

SenseTimeのAIGC能力がフルカバーを達成しており、肉眼でも見えるレベルで「就職」のレベルに達していることが分かります。

それでは次の質問です。

どうやって作ったの?

その背後にあるRirixinの大型モデルは、「相談」や「Miaohua」などのAIGC製品のキラー機能です.

名前が示すように、毎日の更新は、モデルの反復速度と問題に対処する能力を毎日更新できることを意味し、AGI の可能性を継続的に解き放ちます。

(『礼典・大学』より、唐志盤の碑文に「剛日心・理心心・理心心」とある)

現場で実証された機能から判断すると、Ririxin ラージ モデルによって提供される機能は、主に自然言語処理、画像生成、自動データ ラベル付け、およびカスタム モデル トレーニングに焦点を当てています。

40f8c218bb50b23fe13f03125d7edd57.png

しかし、このAIGCブームの波に乗じて、毎日のように大型モデルが登場するわけではありません。

実際、5 年前には、SenseTime は大型モデルの分野で研究開発を開始していました。

そして 2019 年、SenseTime は単一タスクのトレーニングに数千個の GPU を使用し、10 億個のパラメーターのスケールを持つビジュアル モデルを立ち上げ、当時業界で最高のアルゴリズム効果を達成しました。

その後、2021 年から 2022 年にかけて、SenseTime は 30 億のパラメーターを持つマルチモーダルな大規模モデルをトレーニングし、オープンソース化しました-Scholar. 

8eaae138c3341a8143127c7ebdcc1628.png

これまでに、SenseTime は 320 億のパラメーターを持つ世界最大の汎用ビジュアル モデルの開発に成功し、CV、NLP、AIGC に関連する大規模なモデルを作成しました。

したがって、今回Shangtangがリリースした超大型モデルシステムが実際に準備されていることを確認することは難しくありません.5年間のさまざまな「小さな課題」の後、統合されて「大きな課題」を提出しました。

この記者会見で、SenseTime は、「Daily New」が、画像生成、自然言語生成、視覚認知一般タスク、注釈サービスなど、さまざまな柔軟な API インターフェイスとサービスを提供すると述べたことは注目に値します。

……

しかし、1 つ言えることは、マルチモーダルで意思決定を行うインテリジェンス モデルだけが、汎用人工知能 (AGI) につながる SenseTime の唯一のキラーではないということです。

大規模モデルの時代には、大規模な計算能力がより重要になります

そうです、SenseTime 自身のスーパー コンピューティング パワーは、もう 1 つの重要な要素です。

2022 年 1 月に納入され、頭金は 56 億元で、アジア最大の AI スーパーコンピューティング センターの 1 つである人工知能コンピューティング センター (AIDC) になります。

ebf6c3c63fea758cfb736767a712b959.png

1 年前、SenseTime AIDC の総計算能力はすでに 3740 ペタフロップスでしたが、この計算能力により、すでに兆規模のパラメータを持つ大規模なモデルを完全にトレーニングすることが可能です。

1 年後、このコンピューティング能力の数字はわずかに変化し、5000 ペタフロップスに達しました!

最大 4000 枚のカードのクラスターで単一タスクのトレーニングを実行でき、7 日間以上の中断のない安定したトレーニングを実現できます。

a9fb6acc36329dd503a2ca5b754b5ba7.gif
SenseTime AIDCの展示ホールでの裸眼3Dディスプレイ

しかし、Shangtang を知っている友人は、この AIDC が Shangtang の大型 AI デバイスである SenseCore の一部にすぎないことを知っています。

AIDC のコンピューティング パワー レイヤーに加えて、データ レイヤーとモデル レイヤーの 2 つの次元を組み合わせることで、「三位一体」の AI デバイスが形成されます。

したがって、全体として、AGI への道における SenseTime のパラダイムは、「大きなモデル + 大きな計算能力」です。

このようなレイアウトの背後には、今日の記者会見で、これに関する SenseTime の論理的思考が徐々に表れてきました. AGI 時代には、データ、アルゴリズム、計算能力の 3 つの要素に対する新しい要求があります。

計算量(GPU数×実行時間×並列効率)=モデルパラメータ量×処理データ量。

どのように理解するのですか?

モデル パラメーターの数は、AI インテリジェンスの出現を実現するのに十分な数にする必要があります。これにより、コンピューティング能力も急激に向上し、大きなパラメーターのモデル トレーニングを効果的にサポートするには、より高い並列効率が必要になります。

データに関しては、高品質の自然言語データは徐々に不足しており、視覚データは量、質、および情報コンテンツの点で自然言語よりも多くの利点を持っているため、AI は世界をよりよく理解することができます。

このことから、SenseTime がこのようなレイアウトになっている理由を理解することは難しくありません。

……

全体として、ビッグ データ、ビッグ モデル、および強力な計算能力を備えた SenseTime が国内の AIGC に登場したことは、まったく驚くべきことではありません。

楽しみにしておく価値があります。

—終わり— _ _

5477fc0c72f78abddfd5d1f09e723eac.png

Xiaohui の新しい ChatGPT プラネット、公式の運用価格は699に設定されており、現在の最低価格は199です。今すぐ参加して、独立した ChatGPT アカウントを取得してください。アカウントは 100 未満です。

最後に、最新のアクティビティができるだけ早く Moments に投稿されるため、全員が Xiaohui の WeChat を追加することをお勧めします。最高の割引を手に入れた最初の友達が、友達の輪に初めてサインアップしました。

354d892ec9027f2397e15fcd914afc5f.jpeg

(連絡が途絶えないように、WeChat に私を追加してください!)

おすすめ

転載: blog.csdn.net/bjweimengshu/article/details/130119960