大規模モデルの「スポイラー」、データ レイク、データ ウェアハウス、レイク ウェアハウスの選択で最初に除外されるのはどれでしょうか?

0bf63e05f9bafbb870b20ece08f1f1fa.png

いつもこんな感じです。

プレッシャーが見え始めているので、密かに転職を検討しています。

プレッシャーが高く、エネルギーが異常に高まっています。すぐに変更を加えてください。

私たちは Databricks という有名なアメリカの企業とチャットを開始しました。

この Databricks 会社には革新的な DNA があります。

創設者のアリ・ゴドシ(アリ・ゴドシ)は、「2022年フォーブス世界長者番付」で1645位にランクされているスウェーデンの富豪であり、お金には事欠かず、会社のために喜んでお金を使う。

同氏は研究開発投資の削減は検討しないと繰り返し公言してきた。

以前 (大きなモデルが登場する数年前)、Databricks には非常に重要な機能がありました。これを「ツーインワン」機能と呼びましょう。

ビッグデータ機能と従来の人工知能機能。

総称して「データ + AI」機能と呼ばれます。

より正確には、「データ + AI」プラットフォームの機能と呼ばれます。

Databricks は、従来の AI プラットフォームの機能をすでに備えています。

結局のところ、それはワンストップショップと呼ばれます。

これまで、従来の AI は、予測などのシナリオ向けの「高度な」データ分析サービスとして分類されることもありました。

大きなモデルが登場してからは、そのような分類は時代遅れです。

大きなモデルは分析のためだけのものではなく、人々は賢いのです。

したがって、今日の AI プラットフォームの基本要件は、「すべてのボートを増やす」こと、つまり大規模なモデルをトレーニングできることです。

しかし、2 つの世界にまたがる Data+AI プラットフォームである Databricks は、三優秀な生徒からなる優秀なクラス幹部であり、早い段階で「2 つを 1 つにする」能力を備えていますが、「世界」で成長していないのです。管轄下にある「4 つの海」。生成 AI 機能の大規模モデル。

私は持つべきものをすべて持っていますが、思いがけず、自分自身が遅れをとっているのを目の当たりにしました。8cd4f311029182d2de665f87943ec619.png

大規模なモデルに必要なデータの量について、トレーニング中に話しましょう。

数千億のパラメータを含む大規模なモデルを微調整するには約 2 か月かかり、消費データは約 20 テラバイトになります。

これは、ビッグモデルの登場以降、ビッグデータの「価値」が「豊かで誇らしいもの」に変わったことを意味します。

ビッグモデルはビッグデータの値をより徹底的に活用できるからです。

以前に保存した期間は関係ありません。

灰がどれだけ降るかは関係ありません。

最も重要なことは、大きなモデルに素早く餌を与えることです。

大きなモデルに、長い間失われていた知識をすべて「学習」させましょう。

変化が起こると、さまざまなヒントが出てきます。

今度は大型モデルが「ツー・イン・ワン」プラットフォームに問題を引き起こす番だ。

まず、データ型がたくさんあります。

異なるデータ、異なるモード、複数のデータ、複数のモード、大規模なモデルはマルチモーダルに進化します。

一般的なマルチモデルの大型モデルは、グラフィック、テキスト、オーディオの 3 種類のデータを学習しますが、アメリカの大型モデルが主導権を握ると、皆が非常に過激になります。手札に良いカードがある場合は、キングボムを連続でプレイします。

2023 年 5 月 9 日

アメリカのメーカーであるメタラージモデルImageBindは、ビジョンを核とし、テキスト、サウンド、奥行き、熱(赤外線)、モーション(慣性センサー)を組み合わせ、6つのモードをカバーします。

偶然です。

2023年5月26日午後、

テキスト、写真、音声、ビデオ、3D点群、センサー信号などのさまざまなモードを備えた国産の「Zidong Taichu」2.0フルモーダル大型モデルがリリースされました。

この文章を書いているこの時点で、私は同じ5月の9日から26日までの間だけ、複数のモーダルで切迫した複雑な弦楽器のリズムが消えてしまったことに、感動でため息を漏らさなければなりません。

第二に、コンピューティング エンジンが増えています。

Jia Yangqing 氏によると、技術的な観点から見ると、データと AI コンピューティングは別のものです。

データはデータプラットフォームを使用し、AIはAIプラットフォームを使用します。

現在、データプラットフォームもAIプラットフォームも、自らの経験を利用して相手の問題を解決することはできません。なぜなら、データプラットフォームとAIプラットフォームの背後にあるテクノロジーはまったく異なるものだからです。

以前のビッグ データ コンピューティング エンジンは主に構造化データの計算をサポートしていました。

コンピューティング エンジンが異なれば、最適化の方向性 (データの鮮度、クエリのパフォーマンス、コスト) が異なるだけでなく、開発言語、コンピューティング セマンティクス、ストレージ システムも異なるため、組み立てが非常に困難になります。

そして AI には独自のエンジンが必要です。

1 つのコンピューティング エンジンでは不十分であり、この問題はビッグ データ システム製品の時代に発生します。

1 種類のコンピューティング エンジンでは不十分であり、この問題は従来の人工知能の時代にも現れました。

これは大丈夫です、複数のコンピューティング エンジンです。

Data+AI アーキテクチャがそれをどのようにサポートしているかご覧ください。

大型モデルの時代には、データ + AI アーキテクチャの問題が悪化していることが目に見えてわかります。

第三に、大規模なモデルの反復が速すぎます。

時には週単位、時には日単位で「個性を発揮」を重視した大型モデルが奏でるのは「高速進化」。

人々がそれを見ると震え、それを知ると油を燃やすような新しいものがたくさんあります。

第 4 に、大規模モデルの計算負荷は増加するだけであり、減少することはありません。

人々は次のことに同意する傾向があるかもしれません。

近い将来、大規模モデルによってもたらされる AI 負荷が支配的になるでしょう。

そこで「増額計算」の準備が行われます。

これまで、従来の AI 負荷が占める割合はわずかでした。

たとえば、5% は AI を別個のコンポーネントとして扱うことができます。

今は以前のような状態ではありませんが、

大規模モデルの AI コンピューティング負荷の割合は 10% から 80% に増加しました。

性質が変わってしまったのです。

これは、新しい男が古い男に変化をもたらすよう圧力をかける物語です。

DataBricks の内部 OS は次のとおりです。

家族の皆さん、誰が知っていますか?

ビッグデータ プラットフォームのアーキテクチャは複雑で、データ + AI プラットフォームのアーキテクチャも非常に複雑です。

大きなモデルになると、データ + AI プラットフォームのアーキテクチャはより複雑になります。

f984973860ae3490d9b55a6b1791d10f.png

最も重要なことは、このタイプのプラットフォームのアーキテクチャのレベルがスキルの高さを決定するということです。

どうやって対処すればいいのでしょうか?

現在、ワンステップで成熟した解決策はありません。

私たちはインスピレーションを得るためにプラットフォーム アーキテクチャの歴史を振り返ってみました。

ビッグデータは依然としてビッグモデルの背後にあります。その技術も古い。

2023 年はビッグデータ技術の発展 23 年目になります (Google が 2001 年に検索ビジネス向けビッグデータ プラットフォームの構築を開始してから数えます)。

純粋なビッグ データ システムのアーキテクチャも非常に複雑です。

あるいは、大手インターネット企業はオープンソースに基づいて自社を構築しています。

ライン:「やってみろよ。」

または、パブリック クラウド プラットフォーム アーキテクチャを使用し、PaaS サービスを購入します。

セリフ「お金があるなら、その使い方を知らなければいけない。機種選びはとても面倒だ。」

もしくは外注してください。

その内容は次のとおりです。「サービスを購入するための資金を用意してください。サービスはテクノロジー スタックやテクノロジーの選択には敏感ではありませんが、安定性に対する高い要件を妨げるものではありません。」

プラットフォーム技術のアーキテクチャの視点から観察すると、より本質が見えてきます。

なぜなら、「ツーインワン」プラットフォームのアーキテクチャは、コンピューティングとストレージという2つの部分に大別されるからだ。

AI は依然として高速で反復処理を行っており、Data+AI アーキテクチャの反復速度はそれほど速くありません。

次に、堅牢でスケーラブルなアーキテクチャが本当に必要になります。

計算部分は重要ではないでしょうか?

いいえ、しかし計算は再配置できますし、GPU や CPU の追加はそれほど難しくありません。

ただし、データセンター間の長距離帯域幅にはコストがかかるため、保管後にデータを移動するのは簡単ではありません。

したがって、ストレージはより重要になるはずです。

それ以来、Data+AI プラットフォームは「古い 3 つのこと」を回避できなくなりました。

データレイク、データウェアハウス、レイクウェアハウス。

2b8a3d1e794a0b9c1cd5486406c0c5e2.png

それらを観察することは、本質的に、ストレージの観点からデータ + AIプラットフォームを観察することになります。

実際、それらはどれも純粋な単一製品とみなすことができず、すべてに「ストレージ アーキテクチャ」が含まれます。

通常、このような「ツーインワン」プラットフォームには複数のコンポーネントが含まれるためです。

コンポーネントの組み合わせが異なると、システム アーキテクチャの形式も多様になり、作業が非常に難しくなります。

コンピュータ システムのソフトウェア アーキテクチャは本質的に耐久財です。

「優れた」アーキテクチャと呼べるものの中核は次のようなものにあります。

それは長く続きます。半年や1年ごとに新しい体制が生まれれば、

そうなると、この構造は深刻な病気になる可能性があります。

したがって、その反復の時間スケールは非常に長くなる可能性があります。

当初から、アリーナでは 2 つの派閥が並行して発展していたことがわかります。

1 つの派閥であるデータ ウェアハウスは 40 年以上にわたって開発されており、主流のコンピューティング パラダイムは 2 次元の関係式です。

したがって、10 年以上にわたり、データ ウェアハウスはリレーショナル コンピューティング アーキテクチャによって支配されてきました。

したがって、アーキテクチャの反復スケジュールのスケールは 10 年になる可能性があります。

もう一つの派閥、データレイク。

ビッグデータの起源はデータレイク (2006)、

そして、データ レイク ソリューションは、大手テクノロジー企業である Google と Yahoo から生まれました。

データ レイク派の先駆者は、データ レイク アーキテクチャとして誕生した Google ファイル システム (Google File System、GFS) です。

Google ファイル システムのオープン ソース バージョンである Hadoop 分散ファイル システムにも同じことが当てはまります。

データ レイク スクールに共通しているのは、すべてが標準のデータ レイク アーキテクチャを備えており、上部にコンピューティング エンジン、その下部に一連の標準ストレージ (ファイル システム、何でも保存できる) があり、内部に統一されたメタデータがあることです。

データ レイク スクール、Spark、Presto (Facebook が開発したデータ クエリ エンジン) の支持者は数多くいます。これらはデータ レイク上のコンピューティング パワーです。

彼らはストレージとコンピューティングの分離という 1 つに焦点を当てています。

柔軟に組み合わせて使えるコンテンツが豊富なので、

ストレージ システム、リソース スケジューリング システムなど

さまざまなコンピューティング エンジンを柔軟に組み合わせることができます。

2つのジャンル、2つのレーンを同時に、展開は良好です。

コストの観点から見ると、コストのないオープンソースはデータレイクになる傾向があり、コストがかかるエンタープライズレベルの有料サービスはデータウェアハウスになる傾向があります。

一定の時間が経過すると、新しい構造が開発されます。

主な理由は、データベース上のデータ分析が十分に効率的ではないことに誰もが突然気づいたことです。

それには、ストレージとコンピューティングの統合連携などのいくつかの課題が含まれます。

したがって、ビッグデータの全体的なアーキテクチャは、データ ウェアハウスのレーンの方向に発展しています。

したがって、ClickHouse などは、個別のアーキテクチャではなく、ストレージを備えた新しいアーキテクチャを使用しますが、内部での処理にはより統合されたアーキテクチャを使用します。

近年、虎倉(統合型)の開発が始まったばかりですが、10年の時間軸で観察すると、

湖倉はまだ開発が進んだばかりで、比較的新しい構造物です。

本質的に、レイク ウェアハウスは、データ レイクのオープン性と柔軟性と、データ ウェアハウスの効率と管理機能を組み合わせたものです。

シリコンバレーの有名な投資機関である A16Z「Data50 リスト」によると、2022 年の第 1 四半期に、Databricks が位置するセグメント化されたトラック (クエリと処理) が驚くべき額の投資を受け、データ企業追跡の資金総額の50%。

Databricks 社自身の高額な資金調達による部分も大きいですが、その理由は、データ分析(クエリ処理)が遅すぎるとビジネスに影響を与えるという、顧客の生死に関わる厳しいニーズだからです。

つまり、大規模モデルが普及する前は、AIの負荷割合は大きくなく、比較的独立した大きなコンポーネントとして捉えていた企業が多かったのだ。

大型モデルが出てから、

顧客企業は、データベース内のこれらのデータの山を AI でどのように利用できるかを検討します。

「ツー・イン・ワン」プラットフォーム企業の中核となるテクノロジーは次のとおりです。

AI の読み込みを適切にサポートできますか?

このときのAIはそのときのAIではない。

AI はかつてのようなものではなく、第一級市民です。

少なくとも、AIとデータ分析は同等の立場にあります。

したがって、レイクとウェアハウスの統合ストレージ アーキテクチャの開発トレンドにおいて、AI はデータ レイクの方向に一票を投じることに相当します。

データ ウェアハウスは構造化データと半構造化データを処理するため、AI はこの非構造化データと半構造化データの処理能力を重視します。

したがって、大型モデルが湖と倉庫の一体構造を圧迫し、前に押し進めていることが分かります。

物語はまた、Databricks という会社で終わります。

6e6a3d6b652fa7bb23ff036f8454a336.png

Databricks は自腹で 13 億ドルを支払い、人工知能スタートアップ MosaicML を買収しました。

MosaicML 製品は、Databricks Lakehouse AI スイートの一部になります。

最近開催された「Data + AI Summit 2023 (サミット)」では、Databricks が大規模モデル ツール チェーンの比重を高めていることもわかります。

同時に、「百模型コンペティション」に参加した大手模型会社も多大な努力を払った。

双方ともできるだけ早く顧客を獲得したいと考えています。

結局のところ、欠けたり見逃したりすることは良いことではありません。

いつもすぐに変化を起こす人もいます。

(以上)

もう一つ

見出しの当事者にならず、記事のタイトルの質問に直接答えてください。

ラージ モデルの出現後、未来志向のデータ プラットフォームを選択する際には、構造化リレーショナル式のみを目的として設計された従来のデータ ウェアハウス製品は真っ先に淘汰されることになります。

b6e5ad438e37ef0cd0365072b2579e2e.png

商品を持参してください

「I Saw the Storm」タン先生の新刊、JD.com で入手可能

bd0b801ed285fb83a901a97fa3f35d17.jpeg

続きを読む

AI大型モデルとChatGPTシリーズ:

1. ChatGPT が炎上しています。AIGC 会社を設立してお金を稼ぐにはどうすればよいですか?

2.  ChatGPT: 芸術学生を決していじめないでください

3.  ChatGPT はどのように類推して学習しますか? 

4. 独占丨偉大なる神 Alex Smola と Li Mu の出発から AWS スタートアップへの資金調達の成功まで、ChatGPT 大規模モデル時代の「基礎兵器」の進化を振り返る

5. 独占丨元 Meituan 共同創設者 Wang Huiwen 氏が国内 AI フレームワーク OneFlow を「買収」し、光年も離れたところから新たな将軍を加えようとしている

6. 犯罪捜査や事件解決に使用される ChatGPT の大規模モデルは単なる架空の話ですか?

7. 大規模モデル「クラウド上の経済」のゲーム・オブ・スローンズ

8.   CloudWalkの大規模モデル: 大規模モデルとAIプラットフォームの関係は何ですか? インダストリ モデルを構築する理由

9.  4Paradigm Chen Yuqiang との詳細なチャット丨AI の大規模モデルを使用して、兆規模の従来のソフトウェア市場を開拓するにはどうすればよいですか?

10. JD Technology の He Xiaodong との詳細な会話丨9 年前の「出発」: マルチモダリティの基礎を築き、大規模モデルで競争

11. 古い店舗が新しい顧客を歓迎: ベクトル データベースの選択と賭けについて誰も教えてくれないこと

AI大型モデルと学術論文シリーズ:

1. ChatGPT のオープンソース「模倣」は実際に機能しますか? カリフォルニア大学バークレー校の論文、説得、それとも前進?

2. Wang Jinqiao丨Zidong Taichu との詳細なチャット: 大規模な国内モデルを構築するには、何枚の高品質の論文が必要ですか? (二)

3. 張家軍との徹底対談丨「自東台中」の大きなモデルの裏にある読む価値のある論文とは (1)

漫画シリーズ

1. それは喜びですか、それとも悲しみですか? AI は実際にオフィス業務を完了するのに役立ちました

2.  AIアルゴリズムは兄弟、AIの運用保守も兄弟ではないのか?

3. ビッグデータに対する社会的な強気はどのようにして生まれたのでしょうか?

4. 科学のためのAI、それは「科学か否か」ですか?

5. 数学者を助けたいなら、AI は何歳ですか? 

6. 王新陵に電話をかけてきたのは魔法のスマートレイク倉庫だった

7. ナレッジマップは「関係性を見つける」ためのドル箱であることが判明?

8. なぜグラフ コンピューティングはブラック産業のウールを積極的に推進できるのでしょうか?

9.  AutoML: 「Shan Xia ロボット」を購入するためにお金を貯めていますか?

10.  AutoML : お気に入りの鍋の素をロボットが自動で購入

11. 強化学習: 人工知能がチェスをします。1 歩進みます。何歩見えますか?

12. 時系列データベース: 十分なリスクがあり、ハイエンドの工業生産にはほとんど影響しなかった

13. アクティブ ラーニング: 人工知能は実際には PUA でしたか?

14. クラウド コンピューティング サーバーレス: 雲を突き刺す矢、数千の軍隊が互いに出会うことになる

15. データセンターネットワーク:データは 5 ナノ秒で戦場に到着します

16.  データセンターネットワーク: 遅刻するのは怖くない、怖いのは誰も遅刻しないこと

AIフレームワークシリーズ:

1.深層学習フレームワークに従事する人々のグループは狂人か嘘つきのどちらかです(1)

2. AI フレームワークに携わる人々のグループ丨 Liaoyuanhuo、Jia Yangqing (2)

3. AI フレームワークに携わる人々 (3): 熱狂的な AlphaFold と沈黙する中国の科学者

4. AIフレームワークに携わる人々の集団(4):AIフレームワークの前編、ビッグデータシステムの過去

注: (3) と (4) は「I Saw the Storm」にのみ収録されています。

6355027b7535db837facd1783fc21c93.jpeg

おすすめ

転載: blog.csdn.net/weixin_39640818/article/details/131799047