目次
実稼働アプリケーション: AI + データドライブに基づいた低速クエリインデックスの推奨事項
openGauss の概要
openGauss の概要
CSDN と InfoQ から 2023 年の「信頼できるデータベース開発カンファレンス」に参加するよう招待されていることを光栄に思います。今年のシェアリングは「自主性、革新性、リーダーシップ」に焦点を当てており、7月4日がメイン会場のシェアリングとなります。このカンファレンスは、中国通信学院、中国通信標準協会、ビッグデータ技術標準推進委員会、InfoQ Ji Media、清華大学、Huawei、Alibaba Cloud、Tengxuyun、Inspur およびその他の国内トップ学術研究機関および企業が共同で主導し、共有に参加します。最高の学術の饗宴。また、この会議に参加して、国内トップクラスの大学や研究機関による理論・基礎研究の深さと幅広さ、国内トップ企業による応用研究の成果を深く実感することができ、大変得るものがありました。
以下は Li Guoliang 教授によるデータベースと大規模モデルの共有です。AIGC に関係する内容だったので、そのときのスクリーンショットを撮りました。より多くの学生と共有し、皆さんと知識を共有できれば幸いです。国内トップ機関の独自の知識も感じてください。
清華大学コンピュータ科学技術学部教授。主な研究方向は、データベース、グループ コンピューティング、データ マイニング、分析、検索です。彼は、データベース、データ マイニング、情報検索の分野で、主要な会議やジャーナルに 50 以上の論文を発表しています。IEEE TCDE Early Career Award(データエンジニアリング分野におけるIEEE Outstanding Newcomer Award)を受賞。
データベースと大規模モデル
openGauss の概要
openGauss は、Mulan PSL v2 とともにリリースされたオープンソースのリレーショナル データベース管理システムです。データベース分野におけるファーウェイの長年の経験に基づいて、カーネルはエンタープライズレベルのシナリオ向けに競争力のある機能を提供し続けています。以下はopenGaussの公式サイトです。
openGauss は、通常言われるソフトウェアの 3 つの高さよりも 1 つ多い、高パフォーマンス、高可用性、高セキュリティ、高インテリジェンスに焦点を当てており、最も重要なことは独自の研究開発です。教授はまた、Gauss が多くの海外企業から注目され、使用されていると述べました。
大規模なモデルとデータベース
教授が持参した大型モデルとデータの共有は4つの側面に及び、PPTには説明があり、テキスト翻訳は行いませんが、よくわかります。
ビッグモデルがデータベースにもたらす機会
LLM (ラージ モデル) によってデータベースに提供される機会は 5 つあります。インデックスの推奨、マテリアライズド ビューの推奨、インテリジェントな負荷管理、パラメータの調整、およびカーディナリティの最適化です。
大規模なモデルでデータベースの問題を解決するという課題
データベースが大規模モデルにもたらす価値
大型モデル+大型モデルの開発動向
トレンドの製品: Chat2DB
メインのChat2DB/README_CN.md · chat2db/Chat2DB · GitHub
序章
Chat2DB は、Windows および Mac でのローカル インストール、サーバー側の展開、および Web ページ アクセスをサポートする、オープン ソースの無料のマルチデータベース クライアント ツールです。従来のデータベース クライアント ソフトウェア Navicat や DBeaver と比較して、Chat2DB は、自然言語を SQL に変換できる AIGC の機能を統合し、SQL を自然言語に変換することもでき、開発者に SQL 最適化の提案を提供できるため、担当者の効率が大幅に向上します。 AI 時代のデータベース開発者にとって強力なツールであり、将来的には、SQL 操作を理解していない人でも、ビジネス データを迅速にクエリしてレポートを生成できる機能を使用できるようになります。
特性
- AI スマート アシスタント、自然言語から SQL、SQL から自然言語、SQL 最適化の提案をサポート
- SQLクエリ、AIクエリ、データレポートを完全に統合する統合ソリューションの設計と実装
- チームワーク、研究開発をサポートするため、オンライン データベースのパスワードを知る必要がなく、エンタープライズ データベース アカウントのセキュリティ問題を解決します。
- 強力なデータ管理機能。データ テーブル、ビュー、ストアド プロシージャ、関数、トリガー、インデックス、シーケンス、ユーザー、ロール、承認などの管理をサポートします。
- 強力なスケーラビリティ。現在、MySQL、PostgreSQL、Oracle、SQLServer、ClickHouse、OceanBase、H2、SQLite などをサポートしており、将来的にはさらに多くのデータベースをサポートする予定です。
- フロントエンドは Electron で開発され、Windows、Mac、Linux クライアント、および Web バージョン向けの統合ソリューションを提供します。
- 環境隔離、オンライン、毎日のデータ権限の分離をサポート
実稼働アプリケーション: AI + データドライブに基づいた低速クエリインデックスの推奨事項
少し前に、Meituan も AI に基づく DB インデックス推奨について説明した記事を公開しましたが、GPT は独自のアルゴリズムに基づいているため、GPT には与えられませんでした。アイデアも比較的優れており、効果も非常に優れています。インデックスに基づいて、AI モデルには、ユーザーが採用した推奨インデックスの 12.16% が追加されています 。関連するテストも行われています。クエリに対するこれらの追加インデックスの改善が上の図に示されています。上の図は最適化されたクエリの実行数を示し、下の部分は推奨インデックスを使用した後のクエリの実行時間を示しています。実行時間の短縮に関しては、これらのインデックスは合計約 52 億のクエリ実行を最適化し、実行時間を 4,632 時間短縮しました。以下が論文のアドレスですが、ここで簡単に述べておきますが、関係する学生は記事の最後にある参考資料を通じて原理を詳しく読むことができます。
AI+データドリブンのインデックス推奨の全体的なアーキテクチャを次の図に示します。主に、モデルのトレーニングとモデルのデプロイの 2 つの部分に分かれています。
モデルトレーニング
- 遅いクエリと効果が実証された推奨インデックスがトレーニング データとして使用されます。クエリごとに 1 列、2 列、および 3 列のインデックス候補を生成します。
- 特徴エンジニアリングを使用して、各候補インデックスの特徴ベクトルを構築し、インデックス データを使用して特徴ベクトルにラベルを付けます。
- 1 列、2 列、3 列の特徴ベクトルは、それぞれ 1 列、2 列、3 列のインデックス推奨モデルをトレーニングするために使用されます。
モデルの展開
- 推奨インデックスを必要とする低速クエリの場合、候補インデックスも生成され、特徴ベクトルが構築されます。
- 分類モデルを使用して特徴ベクトルのラベルを予測します。つまり、候補インデックスの中から有効なインデックスを予測します。
- モデルが予測した効果的なインデックスをサンプルライブラリ上に作成し、実際にクエリを実行してインデックス付けの前後でクエリのパフォーマンスが向上するかどうかを観察します。クエリのパフォーマンスが実際に向上した場合にのみ、インデックスをユーザーに推奨します。
参考文献: