Volcano Engine クラウド検索サービスは、新しいクラウドネイティブ アーキテクチャにアップグレードされ、数十億の分散ベクトル データベース機能を提供します...

行動を起こして注意を払う

a5c6bf9b54eac430cb3d2604b4ee42fb.gif

役に立つ情報で迷わないように

インターネットの発展が始まって以来、検索テクノロジーは驚くべき社会的および経済的価値を開花させてきました。情報化社会の急速な発展に伴い、データは爆発的に増加しており、検索技術はデータの収集と処理を通じて情報の共有と迅速な検索のニーズに応えています。

クラウド検索サービス ESCloud は、Volcano Engine が提供するフルマネージドのオンライン分散検索サービスであり、Elasticsearch、Kibana などのソフトウェアや一般的に使用されるオープンソース プラグインと互換性があります。構造化テキストと非構造化テキストの複数条件の取得、統計、レポートを提供し、ワンクリックの導入、柔軟なスケーリング、運用と保守の簡素化を実現し、ログ分析や情報検索分析などの実用的なサービスを迅速に構築できます。

サーバーレスの台頭と一般的な傾向に伴い、Volcano Engineクラウド検索サービスは新しいクラウドネイティブアーキテクチャにアップグレードされました

クラウド検索サービスのクラウドネイティブ版‍

14de9a2f16504e6aea17398b5248e6e6.png

k-NN、大規模モデル時代のネイティブ ベクトル検索およびデータベース

レコメンデーションやオーディオ、ビデオなどの新興分野でのアプリケーションの出現と、大規模なモデル シナリオの需要に伴い、より複雑な検索ニーズを満たすためにマルチモーダル検索を導入することが不可欠です。全文検索に基づくベクトル検索機能を追加し、非構造化データの分析と検索を実現します。

ベクトル検索のシナリオでは、機械学習モデルを使用してデータ オブジェクト (テキスト、画像、オーディオ、ビデオなど) を表すベクトルを生成します。ベクトル距離はオブジェクト間の類似性を表します。一般的に使用されるベクトル ライブラリは、ANN アルゴリズムを使用して、大量のベクトルの検索を非常に短時間で完了します。

k-NN はベクトル データベースとして使用でき、高度なベクトル アルゴリズム ライブラリを導入してベクトル インデックスを構築することで、構築されたベクトル インデックスもディスクに永続化され、インデックスがより安定します。ESCloud 製品の逆インデックスと組み合わせると、ベクトル検索と全文検索の機能を統合して、より強力なハイブリッド検索機能を実現できます。ESCloud のクラスターに基づいた k-NN ベクトル データベースは、大規模な分散機能を提供し、ユーザーにスケーラブルなベクトル検索を提供します。

cff15302191f18ef7a1870e429585d5a.png

シナリオケース

k-NN に基づくビジネス シナリオは主に次の 6 つのカテゴリに分類され、現在 ByteDance 内の複雑なビジネス シナリオで使用されています。

  • マルチモーダル検索: 画像検索、セマンティック検索、オーディオおよびビデオの類似性検索など。

  • インテリジェントな推奨: ビデオの推奨、広告の推奨、関係の推奨、製品の推奨など。

  • インテリジェント Q&A: Transformer に基づく FAQ、LLM に基づくドメイン知識 Q&A、LangChain コレクションに基づく生成 QA。

  • データ重複排除: ビデオ、オーディオ、写真のレビューと重複排除、およびさまざまな素材の著作権検出。

  • セキュリティ リスク管理: 不正行為の検出、犯罪対策の検出、リスク評価、異常の検出。

  • その他のアプリケーション: データ マイニング、データ分析、検索の並べ替え、テキスト検索、画像検索。

コピーライティングの類似性認識スキームを例に挙げます。

3b35bde3cb2d1e2eeafd9d62e35b2d15.png

ユーザーがコピーライティングをプッシュするシナリオでは、ユーザーエクスペリエンスを確保するために、プッシュされたコピーライティングに重複したコンテンツが含まれないようにする必要があるため、プッシュされた各コンテンツの類似性識別と重複排除が実行されます。各コピーは BERT モデルを介して埋め込まれて生成され、クラウド検索で 1 回取得されます。類似度が閾値より低い場合は新規コピーライティングと判断し、k-NNベクトルデータベースに書き込み、徐々にコピーライティングライブラリとして改良し、類似度が閾値より高い場合は新規コピーライティングと判断します。重複したコピーライティングがなくなり、プッシュの量が減ります。


クラウド検索サービス ESCloud は、Elasticsearch、Kibana などのソフトウェアや一般的に使用されるオープンソース プラグインと互換性があり、構造化テキストと非構造化テキストの複数条件の取得、統計、レポートを提供します。ワンクリックの導入、柔軟なスケーリングを実現できます。 、運用と保守の簡素化、ログ分析の迅速な構築、情報検索分析およびその他のビジネス機能。

8c7cacc7ee245b7aa2​​7b6216fdd88da5.png

QRコードをスキャンして製品の詳細をご覧ください

063d1149a57ba51be745d77e3c40bad8.png 「原文を読む」をクリックすると商品の詳細がご覧いただけます

おすすめ

転載: blog.csdn.net/ByteDanceTech/article/details/131714527