インターネット全体で最も包括的なナレッジマップの説明!

ナレッジグラフとは

ナレッジ グラフ標準化ホワイト ペーパーの定義: ナレッジ グラフは、客観的な世界における概念、エンティティ、およびそれらの関係を構造化された形式で記述し、インターネット情報を人間の認知世界に近い形式で表現し、組織化、管理する能力を向上させる方法を提供します。インターネット上の膨大な情報を理解します。

ナレッジグラフは簡単に言うと、ノード(点)とエッジ(辺)で構成されており、各ノードは実体を表し、実体は客観世界の人、物、物を指すことができ、各エッジは関係性を表し、関係性は表現することができます。異なるエンティティ間のつながり。本質的に、ナレッジ グラフは、グラフ構造に格納されたセマンティック ネットワークとして理解できます。

ここに画像の説明を挿入します

ナレッジグラフ誕生の背景

ナレッジグラフは1950年代に誕生し、その発展は大きく3つの段階に分けられます。第 1 段階 (1950 ~ 1977 年) はナレッジ グラフの啓蒙期であり、この期間中に文書インデックス付けの記号論理が提案され、徐々に現代科学の発展を研究するための一般的な方法となりました。第 2 段階 (1977 年から 2012 年) は、ナレッジ グラフの成長期です。この段階では、セマンティック ネットワークが急速に発展し、知識オントロジーの研究がコンピュータ サイエンスの重要な分野になりました。この期間中に、WordNet、Cyc などの主要なプロジェクトが誕生しました。大規模な人工知識ベースにより、コンピュータ間、およびコンピュータと人間の間で知識を交換することが容易になります。第 3 段階 (2012 年~現在) はナレッジ グラフの隆盛期です。2012 年に Google が率先してナレッジ グラフ (KG) の概念を提案し、Google はナレッジ グラフ テクノロジーを通じて検索エンジンのパフォーマンスを向上させ、ユーザーの検索エクスペリエンスを向上させました。また、現代の知識グラフの章も開きました。

現在、ビッグデータ時代の到来によりデータ量は飛躍的に増大しており、ナレッジグラフも学術界から現代の企業に適した一般化された大規模ナレッジグラフへと変化しつつあります。人工知能技術の活発な発展により、基礎となるグラフデータベースストレージやコンピューティングパワーの大規模展開など、ナレッジグラフにおける主要な技術的問題はある程度解決されました。検索エンジンの分野以外でも、ナレッジ グラフ テクノロジーは電子商取引、医療、金融、エネルギーなどの分野で注目のテクノロジーとなっており、業界の生産リンクにおける核心的な問題点を解決しています。

知識の表現グラフ

前述したように、ナレッジ グラフの本質は、ノードがエンティティを表し、エッジがエンティティ間の意味関係を表すセマンティック ネットワークであり、基本的な論理構造はパターン層とデータ層に分かれています。パターン レイヤーはデータ レイヤーの上にあり、ナレッジ グラフの中核であり、エンティティ、関係、属性、その他の階層構造を含む、洗練されたナレッジ データ モデルを格納します。データ層は主に事実データ情報、つまり実世界の実情報で構成され、通常は「エンティティ-関係-エンティティ」または「エンティティ-属性-属性値」のトリプルを基本表現として使用します。

現在、ナレッジグラフを表現するためのグラフデータモデルは主にRDFグラフと属性グラフの2つですが、それぞれの表現方法、違い、制限事項について説明します。

RDF の正式名は Resource description Framework です。もともとセマンティック Web のコンテキストで設計されました。主語、述語、目的語のトリプルの形式でリソースを記述するデータ モデルです。下の図は RDF の例です。図。RDF グラフ モデルを使用してナレッジ グラフを表す場合、最初にデータ ディクショナリを構築し、データ モデリング用のメタデータ項目を定義する必要があります。{メタデータ項目には主にクラスとプロパティの 2 つのタイプが含まれます。クラスはオブジェクト インスタンスのコレクションを指し、プロパティは 2 つのサブタイプに分割されます。1 つはクラスの属性を表し、もう 1 つは複数のクラス間の関係を表します。たとえば、RDF を使用して書籍を説明するには、RDF データ ディクショナリで、書籍に含まれる著者、書籍のタイトル、ページ数、発行時期、言語の種類などを定義する必要があります。定義が完了すると、特定の書籍がデータがそこにマッピングされます。したがって、RDF データ辞書の定義自体が RDF グラフ スキーマであり、完全なスキーマがあれば、ユーザーは現実世界の知識をグラフにマッピングするのに便利です。
ここに画像の説明を挿入します

属性グラフでは、頂点はエンティティを表し、エッジはエンティティ間の関係を表します。属性はキーと値のペアとして機能します。頂点とエッジの両方が属性をサポートします。次の図は属性グラフの例です。式の内容は、上図のRDFグラフ キャラクター「呉京」と映画「長津湖」を頂点、主演映画をエッジとし、キャラクターの頂点には「性別」「年齢」の属性情報を持ち、映画の頂点には属性「公開時間」と「興行収入」情報があります。属性グラフ モデルを使用してナレッジ グラフを表す場合は、最初にグラフ モデルを構築し、グラフ モデルのポイントエッジ構造と属性情報を定義してから、データをグラフ モデルにマッピングする必要があります。ビジネス担当者が需要の変化に直面してグラフ モデルを調整する必要がある場合、グラフ モデルの構造を書き直さずにエッジと属性を調整するだけで済みます。

ここに画像の説明を挿入します
学術分野では、固定構造の静的データが保存され、標準化されたインターフェースが提供されることが多く、RDFスキーマを再利用することでデータのオープンな共有を実現し、担当者による作業の重複を回避できます。しかし、他の産業分野では、RDF グラフには限界があります。再利用可能なデータ ディクショナリがないため、新しい RDF データ セットの開発には非常にコストがかかり、RDF の頂点にはラベルやタイプの概念がありません。属性は渡されます。主語、述語、目的語によって完了します ビジネスで属性を追加する必要がある場合、RDF グラフは属性を追加するためにエッジ構造を変更する必要があります グラフ モデルが変更されるため、以前のクエリ ステートメントが使用できなくなる可能性がありますただし、属性グラフでは、グラフ モデルでは、ビジネスの通常の使用に影響を与えることなく、直接変更を加えることができます。たとえば、自分が出演している映画の側面に「role」属性を追加する必要がある場合は、次の図に示すように、その属性を属性マップの側面に直接追加するだけです。
ここに画像の説明を挿入します
RDF グラフはエッジの属性設定をサポートしていないため、同じタイプのエッジは同じであり、エッジは繰り返し使用されます。「呉京」と「長津湖」の役割関係を「映画出演」の隣に単純に追加すると、「映画出演」のすべての述語に同じ属性が追加されます。RDF では、従来の方法では、次の図に示すように、ステートメントを表す新しい頂点「ex:xxx」を作成します。

ここに画像の説明を挿入します
RDF グラフに属性を追加すると、元のグラフ モデルの構造が変更されることがわかります。1 ホップで完了できるクエリは、完了するまでに 2 ホップ以上必要になります。現在の業界のナレッジグラフが大規模なデータ規模、複数のリアルタイム変化、複雑なビジネスモデルの方向に発展していることを考慮すると、RDFグラフモデルで構造化されたナレッジグラフは開発のボトルネックに直面しており、導入後の運用保守コストが高くなります。 、属性グラフはモデルによって表現されたナレッジ グラフであり、顧客によって徐々に認識されます。

ナレッジグラフの幅広い用途

前述したように、Google はナレッジ グラフ テクノロジーを使用して検索エンジンのパフォーマンスを最適化し、ユーザーの検索精度を大幅に向上させています。また、大規模ナレッジグラフ技術はさまざまな業界で広く活用されています。

金融分野において、ナレッジグラフは金融知識の抽出、融合、分析、推論、意思決定などの機能を提供し、金融分野における孤立したマルチソースデータをオープンにするデータ抽出、情報抽出、セマンティックな曖昧さ回避、知識融合、知識処理により、クレジット カード不正防止、リスク予測、インテリジェント マーケティング、およびスマート ファイナンスにおけるその他のアプリケーションを実現するための金融ナレッジ グラフを構築します。たとえば、ナレッジ グラフは、携帯電話番号、連絡先番号、IP アドレス、デバイス、申請書類などの主要な詐欺要素に基づいて、クレジット カードの不正行為防止関係グラフを構築します。詐欺集団は、IP、携帯電話番号などの情報を共有する可能性があります。これらの確立されたルールに基づいて詐欺を判断し、潜在的な詐欺ユーザーを特定して早期警告を提供します。

産業分野では、ビッグデータ時代の到来により、従来の産業分野でもデジタルトランスフォーメーションが進んでいます。ナレッジグラフは、生産プロセスにおける関連パラメータの詳細な分析を通じて、製品の歩留まりに強く関係する決定要因を計算し、影響要因に基づいて結果の曲線モデルを構築し、最適なソリューションを最終生産に適用します。 。さらに、ナレッジグラフには、サプライチェーンの最適化、生産プロセスの改善、機器の故障率の低減など、産業分野での応用シナリオもあります。

エネルギー分野における現代の電力網は、物理的な電力網をベースに、高度なセンサー技術、情報技術、データ分析技術、コンピュータ制御技術などを組み合わせたスマートグリッドです。地域の電力需要を満たし、電力配分を最適化し、電力供給の柔軟性と安定性を確保し、ユーザーの電力消費が安全で信頼性が高く経済的であることを保証する必要があります。ナレッジグラフは、配電範囲内の変電所間の送電関係、変電所内の機器配線関係、発電所内の機器配線関係などの情報を統合し、リアルタイムの発電所の稼働状況と組み合わせます。電力網デジタルツインマップを構築し、グローバル視点で最適な緊急時対応を実現 電力復旧戦略、事業間データ連携、設備不具合早期警報、影響範囲分析などの機能を搭載

ソーシャル分野では、ソーシャル ネットワークは、インターネットに登場して以来、最も急速に成長しているインターネット アプリケーションとなっています。私たちは日常生活の中で多くの世論情報を受信して​​おり、ネットワークのキーボード戦士でもあったと思いますが、社会環境においては、ユーザーは情報の受信者であるだけでなく、情報の生産者、加工者、発信者でもあります。ソーシャル ユーザーは、Twitter-2010 などの巨大なユーザー関係ネットワークを形成する方法を通じて相互にフォローし合います。ナレッジグラフは、ソーシャルネットワーク上の膨大な情報を利用してアソシエーショングラフを構築し、ソーシャル情報の分析、関心のあるユーザーの推奨、ネットワーク世論の早期警告などの機能を実現します。たとえば、ナレッジグラフは、ユーザーの検索習慣、消費習慣、娯楽習慣などに基づいて興味グラフを構築し、特定の趣味を持つ人や組織を正確にセグメント化して、ユーザーに興味のある人、物、物事を推奨することができます。 。短いビデオ ソフトウェアやストリーミング メディアでは、興味のあるビデオが常に見つかり、関連性の低いコンテンツが表示されることはほとんどありません。これは、ユーザーの好みに基づいてレコメンデーションを行うナレッジ グラフであり、ユーザーの粘着性を高めます。

小売分野においては、かつての売り手市場とは異なり、現在の電子商取引モデルは買い手市場となっており、電子商取引プラットフォームは、ユーザーのパーソナライズされたニーズに合わせて、大量の商品の中からユーザーが興味を持った数十の商品をどのように選択しているのでしょうか。ショッピングのニーズが高まり、小売市場になるのか? ドメイン製品の推奨の問題。eコマースナレッジグラフは、ユーザーのニーズを起点として、ユーザーの閲覧習慣、購入履歴、社会的行動、その他のデータを統合して、商品カテゴリーごとに潜在的なユーザーグループを分析し、インテリジェントな推奨事項と正確なマーケティングを実現し、購入者に優れたショッピング体験を提供します。 . 加盟店の利益も最大化します。

上記は、ナレッジ グラフの広範な応用シナリオの紹介です。Chuanglin Technology の公式 Web サイトでは、クレジット カード アプリケーションの不正行為防止や電力網のインテリジェント ディスパッチングなどのグラフのデモが提供されています。興味のある読者は、公式 Web サイトにログオンして探索できます。自分自身で。もちろん、医療、行政、教育、公安などの分野でもナレッジグラフは広く活用されており、エンティティモデリング、データマッピングの観点から、具体的な導入シナリオに基づいてナレッジグラフの活用事例を詳しく解説します。 、ビジュアル表示、およびビジネス分析。

ナレッジグラフ業界の現状

デジタル経済の継続的な発展と深層学習技術と NLP 技術の成熟に伴い、ナレッジ グラフの産業化が現在の市場レイアウトの焦点となっています。iResearchが発表した「2022年中国ナレッジグラフ産業調査報告書」によると、ナレッジグラフの中核市場規模は2021年に107億元に達すると予想され、2026年までにその規模は296億元を超え、年平均で成長すると予想されている。 2021-2026年の成長率 平均成長率は22.5%に達しており、ナレッジマップ関連の2大産業である金融と公安が市場規模の主な原動力となっており、産業規模は急速な発展傾向を示している。将来的には、デジタルガバメントのさらなる進歩と業界の成熟に伴い、政府のナレッジグラフも市場の重要な推進力の1つになるでしょう。

現在の調査レポートの内容に基づくと、ナレッジ グラフ構築における主な問題は、データ ガバナンス、業界の専門家予備軍、基盤となるグラフ データベース ストレージ、改善が必要なアルゴリズムの作成プロセスとパフォーマンス、培う必要のある顧客意識、および最適化する必要がある製品パッケージ。ナレッジ グラフを構築する際の上記の困難を克服することで、ソースからのデータの信頼性と信頼性を確保すると同時に、基礎となるグラフ データベースの保存方法のアップグレード、アルゴリズムのパフォーマンスの向上、製品の使いやすさの最適化など、業界の包括的な人材の育成にも役立ちます。ナレッジグラフ業界の成長を支援します。

基盤となるグラフ データベースの保存方法のアップグレードについて言えば、現在のグラフ テクノロジーの発展は Graph3.0 期に入り、この時期のネイティブ グラフ データベースは高速コンピューティング、高い拡張性、インテリジェンスを特徴としています。グラフ データベースはネイティブ グラフ ストレージを使用するため、データは最下層のグラフ構造に直接保存され、クエリの最適化はアルゴリズム層のグラフ構造データに対して実行され、低データ拡張と高いアルゴリズム パフォーマンスを実現できます。Graph3.0に代表される現在の国内グラフデータベース製品には、ネイティブグラフストレージアーキテクチャを採用したGalaxybaseがあり、ナレッジグラフ構築プロセスにおける基礎となるグラフデータベースストレージの問題をある程度解決します。

ナレッジグラフの開発トレンド

未来は認知知能の時代です。知覚知能は手足のようなもので、認知知能は脳のようなものです。脳は情報に対する知識の抽出やビジネス シナリオの推論と分析を実行し、AI の理解と分析能力を向上させます。その中でも、ナレッジ グラフは状況を打開し、認知インテリジェンスに暗黙の関係とロジックに対する洞察を提供し、ビジネス上の意思決定を支援する上で重要な役割を果たします。同時に、認知知能時代の基盤技術としてのナレッジグラフも急速な発展を遂げることになります。

データ量が指数関数的に増加し、変化は一瞬であるため、機会を捉えて企業に価値を生み出すためには、将来のナレッジ グラフがより大きくなるだけでなく、より速くなければならないと私たちは考えています。ナレッジ グラフの基礎となる柱として、グラフ データベースはストレージとコンピューティングのパフォーマンスを最適化し、今後の需要に備える必要があります。

もちろん、完璧なテクノロジーは存在せず、技術の統合は今後の業界発展のトレンドでもあります。互いの強みから学び、弱みを補うことは、ナレッジ グラフの適用にも役立ち、継続的に磨きをかけ、成功体験を再現してより多くのソリューションを作成できるようになります。

おすすめ

転載: blog.csdn.net/qq_41604676/article/details/133135168