TencentはHunyuan Wenshengtuの大型モデルがオープンソースであることを発表:Soraは同じアーキテクチャを持ち、商用目的で無料で使用できる

5 月 14 日、Tencent は、Hunyuan Wensheng グラフ モデルが完全にアップグレードされ、Hugging Face プラットフォームと Github でリリースされたことを発表しました。これには、モデルの重み、推論コード、モデル アルゴリズムなどの完全なモデルが含まれています。企業および個人が無料で使用できます。開発者は商用利用できます。

これは業界初の中国ネイティブの DiT アーキテクチャ ヴィンセント グラフ オープン ソース モデルであり、15 億のパラメーターを備えた中国語と英語のバイリンガル入力と理解をサポートします。アップグレードされたHunyuan Vincentian大型モデルは、soraと一致するDiTアーキテクチャを採用しており、Vincentian画像をサポートするだけでなく、ビデオなどのマルチモーダルビジュアル生成の基礎としても機能します。

評価データによると、最新の Tencent Hunyuan Vincentian グラフ モデルは、オープンソースの Stable Diffusion モデルよりもはるかに効果的であり、現時点で最高のオープンソースの Vincentian グラフ モデルであり、その全体的な機能は主要な国際レベルにあります。

 

自社開発の新世代 Vincent ダイアグラム モデル

大型モデルの優れたパフォーマンスは、最先端の技術アーキテクチャと切り離すことができません。アップグレードされたTencent Hunyuanwenshengtu大型モデルは、SoraとStable Diffusion 3と同じアーキテクチャおよび主要技術である新しいDiTアーキテクチャ(DiT、Diffusion With Transformer)を採用しています。Transformerアーキテクチャに基づく普及モデルです。

以前は、ビジュアル生成普及モデルは主に U-Net アーキテクチャに基づいていましたが、パラメータ数の増加に伴い、Transformer アーキテクチャに基づいた普及モデルはより優れたスケーラビリティを示し、生成品質のさらなる向上に役立ちます。そしてモデルの効率。 Tencent Hunyuan は、DiT 構造と組み合わせた大規模な言語モデルを探索および適用して、Vincentian グラフ モデルを作成した業界初の企業の 1 つです。 2023 年 7 月から、Tencent Hunyuan Wenshengtu チームは DiT アーキテクチャに基づくモデルの方向性を明確にし、新世代モデルの開発を開始しました。今年の初めに、Hunyuanwenshengtu 大型モデルが DiT アーキテクチャに完全にアップグレードされました。

DiT アーキテクチャに基づいて、Tencent の Hunyuan チームは、モデルの長文理解機能をアルゴリズム レベルで最適化し、最大 256 文字のコンテンツ入力をサポートでき、業界をリードするレベルに達しています。同時に、アルゴリズムレベルでは、マルチサイクル画像生成と対話機能を革新的に実装しており、最初に生成された画像に基づいて自然言語記述を通じて調整できるため、より満足のいく結果が得られます。

ネイティブ中国語も Tencent の Hunyuanwenshengtu 大型モデルのハイライトです。 以前は、Stable Diffusion などの主流のオープンソース モデルのコア データ セットは主に英語であり、中国語、食べ物、文化、習慣について十分な理解がありませんでした。 Hunyuan Wenshengtu は、中国語と英語のバイリンガル理解および生成機能を備えた初の中国ネイティブの DiT モデルであり、古代の詩、俗語、伝統的な建築、中華料理などの中国語要素の生成に優れています。

評価結果によると、新世代のTencent Hunyuanwenshengtu大型モデルの全体的なビジュアル生成効果は前世代よりも20%以上高く、意味理解、画像の質感と信頼性、およびマルチターンダイアログが包括的に改善されています。複数の被写体、中国の要素、リアルなポートレートの生成などのシナリオの効果が大幅に向上しました。

 

業界に利益をもたらす包括的なオープンソース

Tencent の Hunyuan Wensheng グラフィックス機能は、マテリアル作成、製品合成、ゲーム グラフィックスなどの多くのビジネスやシナリオで広く使用されています。今年初め、Tencent Advertising は Tencent Advertising Miaosi をリリースしました。Tencent Advertising Miaosi は、Tencent の Hunyuan モデルに基づくワンストップ AI 広告クリエイティブ プラットフォームで、広告主にテキストベースの画像、画像ベースの画像、画像ベースの画像などのマルチシナリオのクリエイティブ ツールを提供できます。および製品背景の合成により、広告の制作と配信の効率が効果的に向上します。 CCTVニュース、新華日報、深セン経済特区日報、南メトロポリス日報、陽城晩報など20以上のメディアもニュースコンテンツ制作にテンセント・フンユアン・ウェンシェントゥを利用している。

Tencent Wenshengtu のトップである Lu Qinglin 氏は、「Tencent の Hunyuan Wenshengtu 研究開発のアイデアは実践的であり、実践から来て実践に向かうことを主張しています。今回、最新世代モデルは Tencent の革新的なアイデアを共有することを期待して完全にオープンソース化されています」と述べた。 Vincentian グラフィックス分野における実践的な経験と研究結果は、中国の Vincentian グラフィックスのオープンソース エコシステムを強化し、次世代のビジュアル世代のオープンソース エコシステムを共同で構築し、大規模モデル産業の発展を促進します。」

Tencent のオープンソースの Vincentian 図モデルに基づいて、開発者と企業は再トレーニングすることなく推論に直接使用でき、Hunyuan Vincentian 図に基づいた独自の AI ペイント アプリケーションとサービスを作成でき、人的資源と計算能力を大幅に節約できます。透過的でオープンなアルゴリズムにより、モデルのセキュリティと信頼性も確保されます。

同時に、オープンで最先端のHunyuan Wenshengtu 基本モデルに基づいて、Stable Diffusion が支配する英語のオープンソース コミュニティに加えて、中国を拠点とする Wenshengtu オープンソース エコシステムを強化し、より多様なネイティブ コミュニティを形成することにも役立ちます。プラグインの研究、開発、および中国の文化的画像技術の応用を促進します。

Tencent は常にオープンソースにオープンであり、170 以上の高品質プロジェクトをオープンソース化していることが理解されています。これらのプロジェクトはすべて Tencent の実際のビジネス シナリオから派生しており、WeChat、Tencent Cloud、Tencent Games、Tencent などのコア ビジネス セクターをカバーしています。 AI、および Tencent Security は現在、Github 上で 470,000 を超える開発者の注目といいねを獲得しています。

未知のオープンソースプロジェクトはどれくらいの収益をもたらすのでしょうか? Microsoftの中国AIチームは数百人を巻き込んでまとめて米国に向かいましたが、 Yu Chengdong氏の転職は 15年間の「恥の柱」に釘付けになったと正式に発表されました。前に、しかし今日、彼は私たちに感謝しなければなりません— Tencent QQ Video は過去の屈辱を晴らしますか? 華中科技大学のオープンソース ミラー サイトが外部アクセス向けに正式にオープン レポート: 開発者の 74% にとって Django が依然として第一候補であるZed エディターは、 有名なオープンソース企業の元従業員 によって開発されました。 ニュースを伝えた: 部下から異議を申し立てられた後、技術リーダーは激怒し無礼になり、女性従業員は解雇され、妊娠した。 Alibaba Cloud が Tongyi Qianwen 2.5 を正式リリース Microsoft が Rust Foundation に 100 万米ドルを寄付
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/6852546/blog/11114841