Wang Cheng: データ ガバナンスと ChatGPT の出会いのとき

ChatGPTに代表される人工知能などの技術が「高騰」し、世界に激震をもたらす変化をもたらしています。4 月 27 日、2023 データ ガバナンス新実践サミットで、Datablau Digital Technology の創設者兼 CEO の王滕氏が「データ ガバナンスの新実践と人工知能」のテーマを共有し、データ ガバナンスがどのように対応するのかを参加同僚とともに模索しました。 ChatGPT、今回の AI テクノロジーの波はデータ ガバナンスとどのような「化学反応」を起こすでしょうか。

以下は王滕氏の講演のトランスクリプトであり、読みやすいように編集者が文言の変更とテキストの最適化を行っています。

皆さん、こんにちは。まず、Shuyu を代表して、2023 データ ガバナンス新実践サミットにご来場いただきありがとうございます。今日の主なトピックは、人類の歴史の転換点である ChatGPT に関するものです。

なぜデータ要素が新たな生産要素となるのでしょうか?

まず、データ要素を見てみましょう 現在、中国では新しいタイプの生産要素と考えられていますが、これはなぜでしょうか? 私はこれを経済発展の3段階の観点から解釈し、第1段階は労働力と土地を中核とする農業経済、第2段階は資本と技術などを中核とする工業経済とする。 ., そして、第 3 段階もまた、私たちが話しているデジタル経済です。中心的な変化は、最初の 2 つの段階が「供給と需要の側」、つまり企業と顧客の間のリソースの割り当てと価値の交換に焦点を当てていることです。しかし、データが統合されると、より多くのコンテンツが生成され、AIGC (AI がコンテンツを生成する) が発生し、より多くの企業、顧客、ステークホルダーが一緒に価値を創造することになります。

エンタープライズ シナリオの観点から見ると、つまり、デジタル ツインはコンテンツ情報をデジタル化し、いくつかのデジタル ツインと予測演繹を実行して、対応する値を生成します。デジタル ツインの 1.0 バージョンは役割の最適化と呼ばれ、 2.0バージョンはロール最適化と呼ばれるもので、パラレルワールド、つまりデジタル化を完全にデジタルツイン化し、現実世界で何が起こるかを事前に予測して実行し、現実世界にフィードバックして事前に最適化するというものだと思います。生産要素として導入されるデータの実際の価値です。

ここに画像の説明を挿入

テクノロジー主導のデジタル開発はどのような影響を及ぼしますか?

次に、最近非常に人気のある陸斉博士の講義をいくつか引用します。労働力の観点から見ると、農業社会では農民と土地が強い結合関係にあり、その後の工業社会では労働力が流動し、生産される製品も流動し、現在に至る。デジタル化のプロセスの段階では、実際には、それはむしろサービス経済であり、中心的な役割はプログラマー、デザイナー、アナリストなどであり、デジタル情報の遍在からデジタルモデルの遍在に至るまで、これは大きな変曲点。そのため、このモデルがプログラマー、デザイナー、アナリストなどに取って代わる可能性があると誰もが予測しています。これは現在の社会における不安の問題です。モデルがより成熟した後、主な仕事は起業家またはハイエンドの科学者になる可能性があります。

ここに画像の説明を挿入

ルー・チー博士は、人間の環境を 3 つのシステムに分類しました。1 つ目は知覚情報システム、つまり情報はどこにでも存在します、2 つ目は思考モデル システム、これは実際には私たちの知識モデルです、3 つ目は実行行動システムです。情報システムの黎明期には、IBM やマイクロソフトなどが情報をセンシングして収集していましたが、その変曲点は、人間が情報を取得するコストを基本的にゼロに削減したことがわかります。今後も長く存在するでしょう。私たちは現在、第 2 の思考モデル システム Open AI の転換点にいます。ChatGPT 3.5 は、知識 (思考) を獲得するコストを下げる、新しいパラダイムと呼ばれる質的変化をもたらしました。知識表現に変換され、期待されています。記憶と一般化は推論と帰納によって達成されます。最後のアクション システムは、人間と物理世界の間の変換に関するものです。

ここに画像の説明を挿入

データの知識表現への変換、および推論と帰納による期待される記憶と一般化の実現に関して、過去 2 日間に実際の例がありました。データモデリング オープン ソース モデル コミュニティのグループで、誰かが LD-FSM モデルの当事者間の関係の設計についてディスカッションを開始しました。

ここに画像の説明を挿入

誰もがさまざまな角度から早口で答えたが、一言で真実を打ち破るという感覚は決してなかった。そのとき、誰かが ChatGPT の応答を投稿し始めました。

まず、ChatGPT に「あなたは上級データ モデリングの専門家です」というコンテキストを与えましたが、このバージョンの応答はまだ適切とは思えません。
ここに画像の説明を挿入
そこで、ChatGPT は再度回答を求められました。今回の回答はとても信頼できるものでした。基本的には業界の専門家のレベルに達することができます。

しかし、そこには「当事者間の関係のモデル化は当事者間の相互作用に焦点を当てている」など、まだ曖昧な表現がいくつかありますが、この相互作用とは何を指すのでしょうか。そこで、ChatGPT にこれをもう一度明確にするよう依頼しました。ChatGPT は、この問題を非常に明確に説明する例を示しました。
ここに画像の説明を挿入
最後に、ChatGPT で別の説明と例を示します。

ここに画像の説明を挿入
これが知識(思考)を獲得するコストを下げるためであり、その背後にはデータを知識表現に変換し、推論と帰納を通じて期待される記憶と一般化を達成するためであるかどうかを見てみましょう。

これを実現するには、コンサルティング プロジェクトを実行するためにモデルの専門家を雇わなければならない場合があり、数万、数十万の費用を費やして数か月かかりましたが、現在ではそのコストはほぼゼロです。これは、当時Googleが検索エンジンを立ち上げ、情報を得るコストがゼロになったのと同じです。つまり、私たちは現在、大きな転換点に立っているのです。

ChatGPT の成功の中核となる要素は何ですか?

ChatGPT の GPT モデルは、変換シーケンシャル モデル アーキテクチャに基づいています。以前のナレッジ グラフや他の方法と比較して、トランスフォーム シーケンシャル モデル アーキテクチャは、大量の情報をより効率的に圧縮できます。これが核となるブレークスルー ポイントです。第 2 に、英語の ITは世界言語であり、ChatGPT の情報量は実際に世界中の人々によって提供されています。西洋文化自体が演繹と演繹の哲学的論理を持っているため、中国語環境に置かれた場合、まだかなりの課題があるかもしれませんが、中国語はより複雑で理解しにくいため、中国語よりも桁違いに劣ります。英語コーパス。中国語の観点から見た場合、今後これらの情報の捕捉と訓練のために、英語の情報を中国語に変換するべきでしょうか、それとも直接中国語から始めるべきでしょうか。比較的大きな交差点です。

ここに画像の説明を挿入

人工知能はどこまで発展するのでしょうか?

ChatGPTに代表される人工知能技術は強力な機能を持っています。一般に、人工知能の発展は3つの段階に分けられ、AlphaGoが人間の棋士に勝った段階は弱い人工知能に属し、現在の段階は基本的に人間の脳レベルに近い強い人工知能に近づきつつあります。超人工知能は、人間の脳をも超え、人類のあらゆる知識をカバーできる段階に達しており、2030年や2040年には超人工知能が実現するのではないかと予測する人もいます。

アメリカのトリビア グランプリでは、人間のチャンピオンが機械と競い合い、勝つのは非常に困難です。つまり、クイズ、算数、暗記などは、長い間人工知能によってカバーされてきました。また、自動運転、音声認識、視覚、翻訳などはほぼすべて人工知能を実現できますが、科学、デザイン、本の執筆、芸術などはまだ短期的には実現が困難です。人工知能はどこまで発展するのか、ジョン・サールの「中国の部屋実験」という興味深い理論があります。未来の機械は感情を持つことができ、制御できないレベルまで発達する可能性があるのでしょうか。これはまだ結論が出ておらず、誰もが自由に考えられる質問です。

データ ガバナンスのためのインテリジェント エンジンである AI を活用

実際、私たちは ChatGPT についても多くの研究を行ってきました。まず、ChatGPT がデータ ガバナンスを支援するために何ができるかを考えてみましょう。その答えは次のとおりです。まず、データ ガバナンスのための組織的なプロセスをいくつか実行できます。次に、一部のデータの有効性と一貫性を分析できます。第三に、品質の監視、データ ガバナンスのセキュリティ コンプライアンス、および同時にいくつかのタスクの自動化が行われます。1 点目の回答については、製造業の 100 の業界データ標準をリストアップしてもらいましたが、おおよその期待に応える回答が得られます。

ここに画像の説明を挿入

次に、「SQL を使用して ID カード番号の有効性をチェックするコード」を書かせます。これは完璧に書かれており、非常に強力です。
ここに画像の説明を挿入

では、ChatGPT に代表される AI テクノロジーの新しい波をデータ ガバナンスはどのように受け入れるべきでしょうか?

Datablau セキュリティの分類と格付けのインテリジェントな実践

Datablau は実践から始めて、データ セキュリティの分類と分類に関するインテリジェントな研究開発を行ってきました。当社の製品プラットフォーム アーキテクチャでは、業界の分類と分類システムをトレーニングすることによって、一連の分類と分類コーパスを形成します。次に、Word to Vector を使用して、単語ベクトル間の距離、つまり分類とメタデータ ベクトル間の距離を比較します。もちろん、このプロセスでは何らかの最適化が必要です。大きな情報を記述する場合、通常は単語を分割する方法を使用しますが、分割された情報が意味をなさなくなる可能性があり、現時点では手動による最適化が必要です。

以下の図に示すように、分類の説明に対して単語分割を実行し、相関演算のためにベクトル空間に配置して、フィールドと分類の説明の間の相関関係を確認し、ベクトル空間の値を取得します。 、フィールドとの相関が最も高いデータ分類の推奨事項を取得します。
ここに画像の説明を挿入

実際、現在、当社は証券業界や銀行業界で多くのインテリジェントなセキュリティ分類と分類を行っており、特に中国人民銀行のデータ セキュリティ分類と分類の業界標準については、1,220 万件の業界コーパスが使用されています。中国人民銀行のコーパスを補完するため、銀行データの分類と分類の初回認識率は 76% に達し、手動最適化により 90% に達する可能性があります。もちろん、プロセス全体に効果があります。それは機械の自己学習のプロセスでもあります。
ここに画像の説明を挿入
さて、ChatGPT のトピックについてはこれですべてです。
*記事内の一部の写真はLu Qi博士のコースウェアからのものです

おすすめ

転載: blog.csdn.net/weixin_39971741/article/details/130576899