写真、ビデオ、DNA シーケンス... 非構造化データの爆発、新しいテクノロジーの方向性はどこにあるのでしょうか?

現在、Internet of Everything によりデータが爆発的に爆発し、データの種類も増加しており、写真、動画、分子構造などの非構造化データが急増しています。IDC の予測によると、2025 年までに中国の総データ量は 48.6ZB に増加し、世界シェアの 27.8% を占め、世界最大のデータ容量を持つ地域になると予想されています。グローバル データの増加と総量が増加している一方で、データの 80% は非構造化データになります。これは、非構造化データの研究に肥沃な土壌を提供するだけでなく、テクノロジー起業家に機会を提供します。

一方、データ技術自体に戻ると、新しいデータ、コンピューター、および上位レベルのビジネスの間の効果的な橋渡しをどのように構築するかは、テクノロジー企業が解決しなければならない緊急の問題です。

まず第一に, 非構造化データのコンピュータの理解を実現する必要があります. 現在業界で広く認識されている方法は、深層学習モデルを介してデータからベクトル埋め込みを生成し、次に近隣マッチングを実行して同様のデータ検索を実現することです. このプロセスには複数の技術分野が関与しており、例えば、従来の大規模なデータの保存と転送に加えて、AI 技術におけるディープラーニング モデルがベクトル データ変換の精度に与える影響にも注意を払う必要があります。さらに、クラウドへのデータベースの移行に関連する分散テクノロジ、オンライン サービス機能などにより、ベクター データベースの開発者には非常に高い技術的要件が課せられています。

これらの問題に対して、ベクトル データベース会社の Ziliiz は独自のソリューションを提案し、非構造化データ ETL プラットフォームの Towhee、ベクトル データベース Milvus、Milvus グラフィカル管理ツール Attu、視覚化ツールなど、非構造化データ処理のための一連のツール チェーンをオープン ソース化しました。ツールフェダー。Zilliz は、世界中の 1,000 人を超える企業レベルのユーザーが非構造化データ処理を実現し、データの価値を解き放ち、顧客のビジネス開発を支援してきました。今、Zilliz は Zilliz クラウド サービスをリリースし、グローバルな舞台でベクター データベースの分野の「リーダー」になることを望んで、北米市場に注力し始めました。

非構造化データ技術の研究を加速するために、9月24日から25日まで、Zillizは2022年に最初の非構造化データ会議を開催し、ベクトルデータベースの分野におけるZillizの研究結果を世界中のユーザーに紹介し、多くの業界パートナーを招待してベクトルを共有します。データベース さまざまな分野での経験。

 

新製品の発売: Zilliz Cloud

「データは、実際には世界のデジタル表現です。」Zilliz の創設者兼 CEO である Star Lord の見解では、構造化データは、コンピューターの観点からデータを整理して保存することであり、現在の非構造化データは範囲を超えています。写真、ビデオ、ユーザーの行動のポートレート、分​​子と材料の 3 次元構造、人間の DNA シーケンス構造など、自然の視点に属します。

非構造化データの急増というトレンドの下で、人間の脳力と時間の限界を取り除くために、コンピューターがより多くのデータを保存、理解、分析できるようにする必要があると Star-Lord は考えています。複製可能でスケーラブルな、データを自動的にエンドツーエンドで処理および分析するための低コストの方法を実現し、最終的に非構造化データからビジネスの洞察を得る。

現在、Zilliz は非構造化データ処理機能をクラウドに移行し、ユーザー コストをさらに削減することを目指しています。このサミットで、Zilliz のパートナーでテクニカル ディレクターの Luan Xiaofan は、クラウド内の完全に管理されたベクター データベース サービスである Zilliz Cloud という重要な発表を行いました。

Zilliz Cloud には 6 つのコア機能があります: 1 つ目は高可用性、2 つ目はランタイム コスト、開発、運用、保守コストを含むコストの大幅な最適化、4 つ目は優れたセキュリティ サポート保証、5 つ目はユーザー エクスペリエンスの最適化、 ETL、データ管理、データの視覚化などの操作を簡素化すること、6 つ目は、Zilliz Cloud は元の Milvus チームによって構築され、非構造化データ処理の豊富な経験を持っているため、ユーザーにより良いサービスを提供できることです。

この段階で、Zilliz Cloud は最初に北米で開始され、サービスの最初のバージョンは AWS に基づいて構築されます。次に、Zilliz は米国の西部と東部での展開を計画しており、国内および東南アジア地域も並行して展開し、マルチクラウド サービスを実現します。

Zilliz クラウド アーキテクチャ図

 

 

Zilliz 非構造化データ処理ツールチェーンと研究成果

現在、ベクター データベース Milvus はバージョン 2.1 に更新されており、バージョン 2.2 はまもなく利用可能になります。Zilliz のチーフ エンジニアである Jiao Enwei 氏は、新世代の Milvus の新機能と将来の計画を紹介しました。最新の Milvus 2.1 バージョンは、メモリの複数のコピーと高可用性を照会する機能を提供します。コレクションでの String データ型の使用を含む String 型のサポート、String 型の逆インデックスの確立など、サポートを含む継続的なパフォーマンスの改善ANN インデックス、3.2 倍のパフォーマンス向上などのほか、Kafka をログ ブローカーとして使用する、SDK 認証などの新機能もあります。

バージョン 2.2 では、ディスク インデックス作成、バッチ データ インポート、RBAC 権限制御などの機能が追加されます。次世代Milvusは、AIミドルエンド/AIビジネスの2大ユーザー層と、高性能ベクターライブラリ/マスベクトル解析の2大ユーザー層とシナリオを中心に、順次バージョンアップしていきます。

Milvus アーキテクチャ図

 

Milvus の他に、Towhee もサミットのハイライトの 1 つでした。これは、Zilliz チームが注目する 2 つ目のオープン ソース プロジェクトです。Towee は、豊富なデータ処理アルゴリズムとニューラル ネットワーク モデルを含むオープン ソースの埋め込みフレームワークです。Towhee を使用すると、非構造化データ (写真、ビデオ、オーディオ、長いテキストなど) を簡単に処理でき、生データからベクターへの変換を完了できます。

Zilliz のパートナーでプロダクト ディレクターの Guo Rentong 氏は、従来の構造化データ ETL ツールと比較して、非構造化データ ETL ツールには 4 つの主要な特徴があることを紹介しました。 、関連性の高いタグを照合するために、データの基本的なセマンティクスを深く掘り下げます。3 番目に、非構造化データの正確な分析を実現するために、変換プロセスに多数の AI 機能も導入されます。4 番目に、ロード フェーズで、処理されたデータは、ベクター データベースを中心とするデータ プラットフォームまたはデータ センターに流れます。実際の運用環境では、非構造化データの ETL パイプラインは多くの場合、次の 6 つの理由から非常に複雑です。データが複雑である、ツールが標準化されていない、複数のニューラル ネットワーク モデルが関与している、ソリューションを高度にテンプレート化することが困難である、さらに多くのリソースが必要であるマンパワーとプロジェクトのリソースが大量に消費されます。

実際の開発状況と合わせて、非構造化データ ETL の問題は、優れたオープン ソースの基本ソフトウェアまたはオープン ソース ソリューションによって解決する必要があります。このポジショニングに基づいてToweeは立ち上げられました。Towhee は、多数の軽量で使いやすいインターフェイスを設計しており、典型的な埋め込みシナリオ用に一連の埋め込みパイプラインを抽象化しています。エコロジカルなドッキングと統合の観点から、さまざまなビジネスにうまく統合するために、Towee は多数のモデル ライブラリをドッキングし、いくつかの比較的成熟したデータ処理テクノロジ エコシステムを統合し、基礎となるパイプライン機能を最適化します。さらに、Towhee は現在、より多くのユーザーのニーズを満たすために一連の高性能サードパーティ コンポーネントを継承しています。

Guo Rentong 博士は、非構造化データ検索の現在のツール チェーンとテクノロジー エコロジーについても紹介しました。

現在、非構造化データ検索市場にはまだ多くの課題があります。構成要素やツールの不足、すべての部品をつなぎ合わせるのが難しい、車輪の再発明はリソースを消費する、AL/ML インフラストラクチャは完璧ではないなどです。多くの課題に直面した Zilliz 氏の答えは、内部と外部の両方のスキルを育成することです。内部強度に関しては、各製品のパフォーマンス、信頼性、可用性、およびスケーラビリティが継続的に改善されています。外部の力に関しては、Zilliz Cloud は完全に管理されたベクター データベース サービスを実装し、複雑な操作を ETL パイプラインに隠し、モデル、データ処理ツール、およびクラウド サービスとのエコロジカルな統合を可能な限り最適化します。

実際、ベクターデータベース関連の技術も多くの課題に直面しています。Zilliz 研究チームの責任者で上級研究員の Yi Xiaomeng 氏によると、ベクトル検索には 3 つの重要な技術的課題があります。それは、ベクトル データ処理の次元災害、マルチパス侵害、複雑なクエリ セマンティクスです。最近、学術コミュニティは、ベクトル検索を検討する際に主に 3 つの方向性に焦点を当てています。新しいストレージとハードウェア アクセラレータのサポート、機械学習ベースのチューニング戦略、および分散ソリューションです。

 

ベクターデータベースの産業上陸実務

Vector データベース技術は現在、多くの業界に適用されており、多くの企業が Milvus を使用して大量の非構造化データを処理し、ビジネス開発を強化しています。

China Telecom では、その製品 Yipay の RiskX リスク コントロール モデル エンジンのアルゴリズム システムは、主に 5 つのセクションに分かれています。視覚的リスク コントロール、リスク信頼システム、リスク ポートレート、リスク タイミング モデル、およびリスク コントロール ナレッジ マップです。China Telecom Wing Payment のリスク コントロール ディレクターである Tang Minwei 氏によると、これら 5 つのセクションは Milvus のさまざまな機能を深く組み合わせています。例えば、口座開設・認証シーン素材の背景特徴抽出、リアルタイムのマルチモーダル高次クラスタリング、集団リスクの特定などは、Milvusの蓄積・検索機能に頼る必要があります。

深層学習の分野では、Milvus がPaddle NLP に導入されましたBaidu のシニア R&D エンジニアである Fang Zeyang 氏は、Milvus は新世代のベクター データベースとして、シンプルな展開、包括的な機能、極端なパフォーマンス、広範なハードウェア サポートという特徴を備えていると述べました。そのため、Milvus をベクター検索ノードとして Pipeline に導入することにしました。これは、NLP の実稼働レベルのシステムを迅速に構築できるツールです。また、PaddlleNLP のコンポーネント ベースの設計のおかげで、Milvus をベクトル リコール シナリオに展開するのは非常に簡単で、わずか数行のコードで実行できます。典型的な例として、医療情報サービス提供者が医療情報検索システムを構築する際に、 ERNIE 3.0 モデルとMivusベースのベクトル リコール システムを使用して、従来の TF-IDF ベースのセマンティック リコール システムを事前トレーニングにすばやく切り替えることができます。モデルベースのリコールシステム. システムにより、リコール効果が大幅に向上し、システムの安定性も大幅に向上しました。

Milvus に基づいて、Huya Tianyan インテリジェント コンテンツ セキュリティ システムは、弱く監視された機密領域の特徴検索スキームのセット全体を適用しました。Huya セキュリティ アルゴリズムの上級研究員である Li Guanzhao 氏は、長期的には Milvus ベースの検索にはいくつかの利点があると述べています。まず、Milvus は一般的な検索ツールであるだけでなく、完全な AI ベクター データベースでもあり、Python、Go、他の言語; 第二に、便利です 使いやすく、多くの視覚的な操作ツールを提供し、Milvus への移行は非常に便利です; 第三に、使用中に問題が発生した場合、その背後にある会社およびチームは積極的にそれらと通信します、優れたベクター検索データベースになるように改善を続けています。将来的には、特徴抽出機能をさらに改善することに加えて、Huya はより多くの違反シナリオに対応する大規模な検索ライブラリも構築し、Milvus コミュニティの構築に利用および参加する関連機能を組み合わせて、パフォーマンスとパフォーマンスを継続的に改善します。より多くのビジネス シナリオに着陸します。

Momo では、当初は独自のベクトル検索エンジン VRE を構築していましたが、ビジネスの変化に伴い、QPS の増加と遅延の減少、より​​多くのインデックス タイプをサポートできない、コンポーネントの依存関係が多すぎる、障害の場所のリンクが長時間待機するなど、ますます多くの課題に直面しています。 . Momo のデータ プラットフォームの上級専門家である Kong Yunlong 氏によると、いくつかの調査と既存のオープン ソースのベクトル検索製品との比較の後、Momo は最終的に Milvus を実際のビジネスに導入することを選択しました。

将来、Momo は Milvus に基づくベクトル検索プラットフォームをさらに改善し、許可管理、監視、警告などを行い、Milvus の安定性を最適化するためにより多くの人員を投入し、いくつかの優れたモジュールをコミュニティに貢献します; 複数のアプリケーションエコロジカル ガバナンス、動的検索、推奨などのシナリオに加えて、社内のビッグデータ プラットフォームの助けを借りて、Milvus はオフライン クラスター ハイブリッド展開やリソース分離などのシナリオで Milvus のアプリケーションも調査します。

 

オープンソースとオープン、共に未来を築く

Zilliz は常にオープン ソースとオープン ソースの原則を遵守し、オープン ソース コミュニティを育成すると同時に、学界との協力を積極的に強化し、最新の研究成果を共有しています。過去 2 年間、Zilliz は SIGMOD および VLDB データベース サミットで Milvus の研究論文を発表してきました。オープンソース コミュニティに関しては、Milvus は過去 1 年間で GitHub スターの数を 2 倍の 13,000 以上に増やし、コントリビューターの数も 2 倍になりました。今後も、Zilliz はオープンソース コミュニティの構築に向けた取り組みを続けていきます。

LF AI & Data Foundation のエグゼクティブ ディレクターである Ibrahim Haddad 氏も、Milvus オープンソース コミュニティの成果を紹介しました。Milvus 氏は 2020 年 1 月に LF AI & Data Foundation のインキュベーションに参加し、わずか 1 年半で LF AI & Data Foundation を卒業したと述べています。現在、1,600 人を超える貢献者が Milvus プロジェクトに参加しており、800 人を超える貢献者が継続的に活動しています。「これは驚くべき数字であり、2020 年 1 月初旬に初めて参加したときのほぼ 9 倍です」と彼は言いました。

Ibrahim Haddad は、本当に素晴らしいのは Milvus のプロジェクトの成長とコミットの成長だと考えています。「わずか数か月で、ますます多くの人々がプロジェクトに貢献し、新しいものが提出されています。過去 2 年間で、提出物は約 270% 増加しました。新しい貢献者の数も増えており、毎月私たちはプロジェクトへの新しい貢献者を引き付けることができました.Zillizチームは、プロジェクトのバランスを取り、新しい貢献者を押して引き付けるという素晴らしい仕事をしました."

実際、現在の国際市場には同様のベクター データベース製品がありますが、それらはオープン ソースおよびオープン製品モデルに基づいていません。さらに、一部の従来のデータベース企業やパブリック クラウド サービス プロバイダーも、ベクトル検索の分野を調査し始めています。しかし、比較すると、Zilliz はベクター データベースの分野に参入した初期の会社であると同時に、オープンソースのラインを早くから確立し、ユーザー コミュニティに深く入り込み、ユーザーのニーズを理解し、徐々に構築してきた企業と言えます。コア製品 Milvus の周りの上流と下流のツール エコロジー、利点は明らかです。

世界市場を見渡すと、非構造化データ処理の技術探求の道のりで、誰がリーダーになれるのか、答えはまだ出ていません。

しかし、Zilliz 2022 の最初の非構造化データ サミットを通じて、成熟しつつある一連の非構造化データ処理技術と、オープン ソースとオープン ソースの利点を確認し、将来が期待できると信じています。

{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/5283003/blog/5581360