ファーウェイの大型モデルがついに登場、私の評価は「かなり衝撃的」

ファーウェイの大型モデルがついに登場、私の評価は「かなり衝撃的」


大型モデル競争で常に出遅れていると言われてきたファーウェイが、今回ついに苦境を招いた。


いいえ、昨日のHuawei Developer Conference 2023で、Huaweiはその機能を披露しました。


3時間近い記者会見は依然としてファーウェイの過去のごった煮スタイルを引き継いでおり、Shichao氏はそれに目がくらんだ。


ただし、要約すると、実際に際立っているテーマが 1 つあります。それは、Pangu Large Model 3.0 です。


実際、ほんの数日前、他の大型モデルがまださまざまな評価を求めて競争していたとき、Pangu は世界トップの学術誌ネイチャーによる認定という黄金の看板を掲げて、ユニークな方法でみんなの視界に入りました。


盤古モデルの追加により、天気予報の速度が1万倍以上向上し、数秒で結果が得られるようになり、台風がどこに何時に襲来するのかを明確に予測できるようになったと言われています。来る、そしていつ出発するか。


最大の特徴は、その予測精度が世界最強と言われる欧州気象センターのIFSシステムをも上回り、AIによる予測が従来の数値予測を超えた初めての製品であるということです。


ご存知のとおり、これまでほとんどの AI 天気予報は 2D ニューラル ネットワークに基づいて開発されていましたが、天気は複雑すぎて、2D ではあまりにも多すぎます。


さらに、以前の AI モデルは予測プロセス中に反復誤差を継続的に蓄積するため、結果の精度に影響を与える可能性があります。


そのため、AI による予測手法は常に不評でした。


Pangu 気象モデルは優れており、3DEST と呼ばれる 3 次元ニューラル ネットワークを使用して気象データを処理します。2D で処理できない場合は 3D を使用します。


3DEST のネットワーク トレーニングと推論戦略


反復誤差の問題に対応して、このモデルでは「階層型時間領域集計戦略」も使用して反復誤差を削減し、それによって予測の精度を向上させています。


この言葉は騙されやすいように思えますが、実は理解するのは簡単です。


たとえば、以前の AI 天気予測モデル FourCastNet は、台風が来る 6 時間前に予測し、その 6 時間の間に、いつ台風が来るかを複数回計算します。


ある時は5時間、ある時は4時間半という計算もあり、それらを足し合わせると誤差が大きくなります。


しかし、盤古気象モデルは、予測間隔の異なる 4 つのモデルを、1 時間に 1 回の反復と、3 時間、6 時間、24 時間ごとに 1 回の反復でトレーニングする方法を発見しました。


次に、特定の気象予測のニーズに従って、対応するモデルが反復のために選択されます。


たとえば、今後 7 日間の天気を予測する場合、24 時間モデルを 7 回反復します。20 時間を予測するには、6 時間モデルの反復 3 回 + 1 時間モデルの反復 2 回を意味します。


反復回数が少ないほど、誤差は小さくなります。


この運用の波により、天気予報は新たなレベルに引き上げられました。


しかし、何人かの友人はつぶやき始めたかもしれません、他の人の大きなモデルは画像とテキストしか生成しないのに、なぜファーウェイはそれを天気予報に変えたのですか?


この大きな Pangu モデルは、私たちがこれまでに遭遇した ChatGPT や Midjourney とはまったく異なり、産業ビジネスに従事しています。


簡単に言えば、大型の盤古モデルは通常使用できません。


これは、誰もが楽しみにしている ChatGPT の「宿敵」ではなく、ほとんどアクセスできない To B 市場をターゲットとしています。


難しいかどうかについては話はさておき、少なくともファーウェイが長年にわたって蓄積してきた法人顧客リソースは確かに収益化が容易だ。


さらに、ファーウェイの記者会見は、気象予測モデルの無慈悲な役割をもたらしただけではありません。


40年以上新しい抗生物質は発見されていません。


盤古鉱山の大型モデルは、石炭採掘の1,000以上のプロセスを深く掘り下げることもでき、クリーンコールを選択するだけでクリーンコールの回収率を0.1%から0.2%高めることができます。


ご存知のとおり、年間 1,000 万トンのコークス炭を生産する石炭精製プラントの場合、クリーンコール収量が 0.1% 向上するたびに、年間 1,000 万元の追加利益が得られます。


これはすべて無料のお金です。


実際、上記の天気予測、医薬品開発、石炭の準備に加えて、Pangu モデルは多くの産業で使用されています。


記者会見で、ファーウェイ・クラウド人工知能の首席科学者であるティアン・チー氏は、ファーウェイ・クラウド人工知能プロジェクトは1,000以上のプロジェクトに適用されており、そのうちの30%が顧客のコア生産システムで使用され、平均18のプロジェクトを推進していると述べた。 % 顧客の収益性の向上。


さまざまな業界向けにこれらの大型モデルを量産できるファーウェイの能力は、ファーウェイ Pangu モデル 3.0 の 5+N+X 3 層アーキテクチャによるものです。


この構造により、Pangu はさまざまな業界に迅速に参入することができます。


なぜそんなことを言うのですか?


AI は産業に導入されているため、データが大きな課題となります。


張平安氏は記者会見で、「業界データの入手が難しく、技術と業界を統合することが難しいため、業界での大型モデルの導入は遅れている」と述べた。


Pangu は非常に賢く、5+N+X の 3 層アーキテクチャを通じて、この大きな問題を 3 つの小さな問題に直接分割して解決します。


まず、Pangu の L0 層の 5 つの大きなモデルは、百科事典の知識、文学作品、プログラム コード、テキスト ラベルが付いた数十億のインターネット画像など、数百テラバイトのテキスト データを学習しました。


まず、第 1 層の L0 大規模モデル (自然言語大規模モデル、視覚大規模モデル、マルチモーダル大規模モデル、予測大規模モデル、科学計算大規模モデルの 5 つの基本的な大規模モデル) で基本的な理解を確立すると理解できます。 . 知識、これは私たちの大学の前の質の高い教育段階に似ています。


そして、第2層L1のモデルは、L0の基本的な大規模モデルにN個の関連産業のデータを学習させて形成される。これは大学の学部段階に似ており、さまざまな専攻を選択して勉強する必要があります。


たとえば、病院での CT 画像検査や工場での画質検査では、どちらも大きなビジュアル モデルが使用されます。


しかし、結局のところ、一方は病院、もう一方は工場であり、使用シナリオはまったく異なります。基本的な大規模モデルに基づいては絶対に機能しませんが、業界のデータが追加されると、驚くべきことが起こる可能性があります。


最終的な L2 は大学院生と同様、特定の業界に基づいた特定のシナリオに絞り込まれます。たとえば、倉庫業や物流業では、商品の輸送、入庫、出庫にさまざまな導入モデルが必要になる場合があります。


同時に、ファーウェイはフィードバックリンクも追加しました。これは社内でのインターンシップに似ています。


彼らによると、これまで GPT-3 規模の大規模インダストリ モデルの開発には通常 5 か月かかっていましたが、このツール セットを使用すると開発サイクルを 1/5 に短縮できるとのことです。


同時に、多くの業界における小規模なデータセットの制限も解決できます。たとえば、大型航空機の製造などの非常に詳細な業界でも、大きなモデルが存在する可能性があります。


この大規模なモデルセットに加えて、ファーウェイは今回、非常に興味深いこと、つまりコンピューティングパワーのローカリゼーションも提案しました。


誰もが知っているように、AI のコンピューティング能力という点では、私たちは非常に恥ずかしい思いをしています。


第一に、AI 業界の中核機器である NVIDIA の H100/A100 を購入できないこと、第二に、NVIDIA が「思慮深く」H800 を置き換えたにもかかわらず、まだ留保が残っていることです。たとえば、通信速度が大幅に低下しました。


大規模なモデルは数か月のトレーニング時間を必要とすることが多いため、より強力な計算能力を持つ海外のモデルに簡単に追い越されてしまいます。


しかし今回も、ファーウェイはこの問題に対処するための本格的な手段を考案した。


たとえば、紙のパフォーマンスの点では、Huawei 社の Ascend 910 プロセッサはすでに Nvidia の A100 に匹敵します。


しかし、実用化にはまだギャップがあります。そして、A100 は Nvidia の最終兵器ではありません。


しかし、シェンテンは多くの友人に認められています。ファーウェイは記者会見で「中国の主要モデルの計算能力の半分は自社が提供している」とまで直接述べた。


もちろん、ファーウェイの現在のコンピューティング能力のハイライトは、ソフトウェアエコシステム全体によってもたらされる可能性が高い。


たとえば、記者会見によると、AI Shengteng クラウド コンピューティング パワー ベースとコンピューティング フレームワーク CANN が含まれています。大規模モデルのトレーニングに関して、ファーウェイの効率は業界の主流の GPU の 1.1 倍です。


さらに、ユーザー向けにアプリケーション パッケージの完全なセットを開発しました。


たとえば、Meitu はわずか 30 日で 70 モデルを Huawei エコシステムに移行しました。同時にファーウェイは、両者の努力により、AIのパフォーマンスが元のソリューションと比較して30%向上したとも述べた。


それでもかなり印象的です。


さらに、ファーウェイは現在 400 万人近くの開発者を抱えており、これは NVIDIA CUDA エコシステムと一致しているとも述べました。


この一連の取り組みは、その欠点の一部を補ったものといえる。


一般に、ファーウェイの記者会見を見た評論家は、AIにおけるファーウェイのレイアウトが非常に奥深いと感じ、すでに「AIが本当に私たちに何をもたらすのか」という問題について考え始めています。


過去 6 か月間、AI 業界は盛大な賞賛を受けてきましたが、実際に業界レベルに落とし込むと、少々当惑するような状況になってきました。


そしてファーウェイの行動は、任正非氏の発言を裏付けるものである。


「将来、AIの大型モデルに混乱が起きるだろうが、それはマイクロソフトだけではない。人工知能ソフトウェアプラットフォーム企業の人間社会への直接的な貢献は2%にも満たないかもしれない、そして98%は産業社会の促進である」そして農業社会。」


AIの分野では、本当の大きな時代はまだ来ていません。

転載元:https ://www.toutiao.com/article/7253266503217218082

おすすめ

転載: blog.csdn.net/davidwkx/article/details/131633026