生成 AI が従来のデータベースを破壊する 10 の方法

生成 AI のフラッシュはすべてありますが、この新時代の最大の変化はソフトウェア スタックの奥深くに埋もれている可能性があります。AI アルゴリズムは、気づかないうちにデータベースを次々と変更しています。彼らは、複雑で適応力があり、より直観的に見える新しい AI 機能によって、従来のデータベースを破壊しています。

同時に、データベース メーカーは、人工知能モデルとより適切に連携できるように、情報を保存する方法を変更しています。AI の普及に伴いデータベースが適応し、改善されている 10 の方法を紹介します。

1. ベクターと埋め込み

AI 開発者は、情報を数値の長いベクトルとして保存することを好みます。以前は、データベースはこれらの値を行として保存し、各数値を別の列に格納していました。一部のデータベースは単純なベクトルをサポートするようになったため、情報を行と列に分割する必要はありません。代わりに、データベースにそれらがまとめて保存されます。ストレージに使用されるベクトルの中には、数百または数千もの長さのものもあります。

このようなベクトルは、複雑なデータを単一の数値リストに変換するパターンであるエンベディングと組み合わせられることがよくあります。デザインの埋め込みは依然として芸術であり、多くの場合、基礎となるドメインの知識に依存します。データベースを適切に設計すると、データベースは高速アクセスと複雑なクエリを提供できます。

Pinecone、Vespa、Milvus、Margo、Weaviate などの一部の企業は、ベクターの保存専用の新しいデータベースを構築しています。PostgreSQL のようなデータベースは、現在のツールにベクトルを追加しています。

2. クエリモデル

データベースにベクターを追加すると、単なる便利さ以上のものがもたらされます。新しいクエリ関数は、完全一致を検索するだけではありません。「最も近い」値を見つけることができるため、推奨エンジンや異常検出などのシステムの実装に役立ちます。ベクトル空間にデータを埋め込むと、幾何学的な距離のみでのマッチングや関連付けを伴う厄介な問題が簡素化されます。

Pinecone、Vespa、Milvus、Margo、Weaviate などのベクトル データベースは、ベクトル クエリを提供します。Lucene や Solr などの一部の予期しないツールもアフィニティ マッチングを提供しており、大きな非構造化テキストの塊でも同様の結果が得られます。

3. 提案

新しいベクトルベースのクエリ システムは、私たちが慣れていた時代よりもさらに魔法のように感じられます。古いクエリは一致するものを見つけますが、これらの新しい AI データベースは、ユーザーの心を読んでいるように感じることがあります。彼らは類似性検索を使用して、「近い」データ項目を見つけ、多くの場合、ユーザーが望むものとよく一致します。これらすべての背後にある計算は、n 次元空間での距離を求めるのと同じくらい単純かもしれませんが、どういうわけかこれだけで予期しない結果が得られます。これらのアルゴリズムは長い間、完全なアプリケーションとして単独で実行されてきましたが、徐々にデータベースに組み込まれ、より優れた、より複雑なクエリをサポートできるようになってきています。

Oracle は、この市場をターゲットとしたデータベースの一例にすぎません。オラクルは長年にわたり、さまざまなあいまい一致および類似性検索機能を提供してきました。現在では、オンライン小売などの業界向けにカスタマイズされたツールを直接提供しています。

4. インデックスの例

以前は、データベースは特定の列による高速検索を可能にする単純なインデックスを構築していました。DBA は、適切なインデックスを使用して高速に実行される結合句とフィルタ句を使用したクエリを作成するのが得意です。現在、ベクトル データベースは、ベクトル内のすべての値を効率的に網羅するインデックスを作成するように設計されています。私たちは、互いに「近くにある」ベクトルを見つけるためのあらゆる用途を理解し始めたところです。

しかし、これはほんの始まりにすぎません。AI がデータベース上でトレーニングされると、データベース内のすべての情報が効果的に吸収されます。今では、簡単な言語で AI にクエリを送信できるようになり、AI は複雑かつ適応的な方法で検索します。

5. データの分類

AI はデータベースに新しい構造を追加するだけではありません。場合によっては、データ自体の中に新しい構造が追加されることがあります。注釈が付けられていない画像や、ずっと前に誰かが書いた大きなテキストの塊など、一部のデータは混乱した状態で届くことがあります。AI アルゴリズムは、混乱を一掃し、ノイズを除去し、混沌としたデータセットに秩序を与えることを目的としています。フォームに自動的に入力されます。彼らは、テキストブロックの感情的な調子を分類したり、写真の中の顔の態度を推測したりすることができます。画像から小さな詳細を抽出でき、アルゴリズムはパターンを検出する方法を学習することもできます。データを分類し、重要な詳細を抽出し、情報を明確に説明する定期的な表形式のビューを作成します。

アマゾン ウェブ サービスは、SageMaker などの AI ツールと Aurora などのデータベースを接続する、さまざまなデータ分類サービスを提供します。

6. パフォーマンスの向上

優れたデータベースは、データ ストレージの多くの詳細を処理します。以前は、プログラマは、データベースを効率的に実行するために、データベースで使用されるさまざまなパラメータやスキーマについて時間をかけて検討する必要がありました。データベース管理者の役割は、これらのタスクを処理するために確立されています。

これらの高レベルのメタタスクは現在、クエリ パターンとデータ構造を理解するために機械学習アルゴリズムを使用することによって自動化されています。サーバー上のトラフィックを監視し、需要に対応する計画を作成できます。彼らはリアルタイムで適応し、ユーザーのニーズを予測することを学習します。

オラクルは最良の例の 1 つを提供しています。かつて、企業はデータベースを管理するデータベース管理者に高額の給与を支払っていました。現在、オラクルは自社のデータベースを自律型と呼んでいます。これは、そのデータベースがその場でパフォーマンスを調整する高度な人工知能アルゴリズムを備えているためです。

7. より鮮明なデータ

適切なデータベースを実行することは、ソフトウェアを実行し続けることだけでなく、データが可能な限りクリーンで障害がないことを確認することも重要です。AI は、異常を検索し、フラグを立て、場合によっては修正を提案することで、このワークロードを簡素化します。顧客名のスペルが間違っている箇所を見つけて、残りのデータを検索して正しいスペルを見つける可能性があります。また、受信データ形式を学習して取り込み、すべての名前、日付、その他の詳細が可能な限り一貫して表示される単一の統合コーパスを生成することもできます。

Microsoft の SQL Server は、フィールドの欠落や日付の重複などの問題があるデータをクリーンアップするために、データ品質サービスと緊密に統合されたデータベースの一例です。

8. 不正行為の検出

より安全なデータ ストアの作成は、機械学習の特別なアプリケーションです。一部の企業は、機械学習アルゴリズムを使用してデータ フィードの異常を探しています。これらのアルゴリズムは不正行為の良い指標となる可能性があるためです。深夜に初めてATMに行く人はいますか?この人はこの大陸でクレジット カードを使用したことがありますか? 人工知能アルゴリズムは危険な動きを嗅ぎ分け、データベースを不正行為検出システムに変えることができます。

たとえば、Google の Web サービスは、不正行為の検出をデータ ストレージ スタックに統合するためのオプションをいくつか提供しています。

9. セキュリティの強化

一部の組織は、これらのアルゴリズムを内部で適用しています。AI は使用パターンに合わせてデータベースを最適化しようとしているだけでなく、侵入を示す可能性のある異常なケースも探しています。リモート ユーザーがテーブル全体の完全なコピーを要求することは毎日あるわけではありません。優れた AI は何か胡散臭い匂いを嗅ぎ分けることができます。

IBM の Guardium Security は、データ ストレージ層と統合してアクセスを制御し、異常を監視するツールの一例です。

10. データベースと生成 AI の結合

以前は、AI とデータベースは分離されていました。モデルをトレーニングする段階になると、データがデータベースから取得され、再フォーマットされて AI に供給されます。新しいシステムは、既存のデータから直接モデルをトレーニングします。これにより、データの移動だけでも数日から数週間かかる大規模なジョブの時間と労力が節約されます。また、DevOps チームの作業が簡素化され、AI モデルのトレーニングが 1 つのコマンドを発行するのと同じくらい簡単になります。

データベースを完全に置き換えるという話さえあります。クエリをリレーショナル データベースに送信する代わりに、AI に直接送信すると、あらゆる形式のクエリに魔法のように応答します。Google は Bard を提供し、Microsoft は ChatGPT を推進しています。どちらも検索エンジンに代わる有力な候補です。従来のデータベースを置き換えることができない理由はありません。

このアプローチには欠点があります。場合によっては、AIが幻覚を起こして完全に間違った答えを導き出すこともありました。また、気まぐれに出力形式を変更する場合もあります。

ただし、ドメインが十分に限定されており、トレーニング セットが深くて完全であれば、AI は満足のいく結果を提供できます。また、テーブル構造を定義したり、ユーザーがテーブル内のデータを検索するためにクエリを作成したりする必要がなくなります。生成 AI を使用したデータの保存と検索は、ユーザーとクリエイターにとってより柔軟になります。

11. より優れたツールを見てください

宇宙エレベーター、MOSS、ChatGPTなどはすべて、2023年が平凡な年になる運命にないことを示しています。新しいテクノロジーはすべて精査する価値があり、私たちはこの感性を持つべきです。

ここ数年、漠然とローコードに出会ったのですが、現在では比較的人気があり、大手メーカーも続々と参入しています。

ローコード プラットフォームのコンセプト: 自動コード生成とビジュアル プログラミングにより、少量のコードだけでさまざまなアプリケーションを迅速に構築できます。

私の考えでは、ローコードとは、フロントエンド、バックエンド、データベースをすべて一度に実行できるシステムを、ドラッグしたり、動かしたり、ワンパス操作で作成したりすることです。もちろんこれが最終目標かもしれません。

リンク: www.jnpfsoft.com/?csdn、興味のある方はぜひ体験してみてください。

JNPF の利点は、フロントエンド コードとバックエンド コードを生成できることです。これにより、優れた柔軟性が得られ、より複雑でカスタマイズされたアプリケーションを作成できます。また、そのアーキテクチャ設計により、開発者は基礎となる技術的な詳細を気にすることなく、アプリケーション ロジックとユーザー エクスペリエンスの開発に集中できます。

おすすめ

転載: blog.csdn.net/Z__7Gk/article/details/132625018