大規模なデータのアプリケーションマッピング知識

モバイルインターネットの発展に伴い、すべての物事のインターネットは、インターネット爆発的な成長によって生成されたデータ可能となり、これらのデータは、原材料関係のちょうどとして有効で分析することができます。前回のインテリジェンス分析は、個々に焦点を当てる場合は、個々のモバイルインターネットの時代に加えて、そのような個人間の関係は、詳細な分析のための私達の必要性の非常に重要な部分になるためにバインドされています。一つのタスクでは、限りの関係の需要分析があるとして、「可能性」に関する知識マップが便利になります。

関係の重要性といえば、のは興味深い理論を見てみましょう、6次の隔たり(英語:6次の隔たり)、私たちは聞いたことがあると信じて、この理論は、世界内の任意の2つの見知らぬ人と考えています、ほんの数仲介は接触を確立することができるようになります。

1967年にハーバード大学の心理学教授スタンリー・ミルグラムはわずか6ステップの平均は、あなたが任意の二つの見知らぬ人のアメリカ人をリンクできることを証明しようとすると、チェーンレターのコンセプトに基づいて実験を行いました。この現象は、人々の間のいずれかのリンクに到達することになる6つのステップを経なければならないことを意味しますが、そのような重要な概念で表現されていません。任意の二つの見知らぬ人の間で、一定のスルー情報、必要に応じて接続や関係を生成することができ、常に。私たちは物事を理解するために思考の全く新しい道を開くためのマッピング知識。

知識マップとは何ですか

一文で知識マップは、それが格納した知識を表すマップを形成することです。マッピングの知識はノード(点)と縁部(エッジ)組成のデータ構造図に基づいて、実質的に意味ネットワークです。知識マップでは、各ノードは、「エンティティ」エンティティとエンティティ間の「関係」の各辺を実世界の存在を表しています。

知識のマッピングは、関係の最も効果的な表現は、それはグラフの形で私たちの世界の現実を描いています。今、私は日本の有名なアニメ監督宮崎駿、彼の作品や俳優との仕事や知識マップとの関係を示したものです。図からわかるように、宮崎を含むが、映画「となりのトトロ」など、多くの映画を監督した「となりのトトロ、」俳優は高木等しいを持っています。数百人一緒監督、俳優や映画の何千ものこのように、彼らは知識マップの膜を形成します。

図が示されているのNeo4j

知識マップの起源

知識のマッピングでは、Google社が2012年に提唱し、新たな概念です。マッピング知識、エンティティを使用する意味ネットワークのすなわち特別な種類、関係、属性、これらの基本単位、記号は、物理的な世界と異なる概念の概念との関係を説明しました。

知識のマッピングは、データをより容易に理解し、人間と機械で処理させる、一緒にデータの有機組織片に関連したデータとの間のリンクを確立することを目指し、検索、掘削・分析のために人工知能のために、容易にするために、実装は、知識ベースを提供します。

Google検索エンジンの品質は答えを返す改善するために、我々は、知識マップの概念が導入されました。知識の地図案内、利用者の背後にある意味情報を照会するための検索エンジンは、より正確な情報をより構造化されて返されます。無意味ではない文字列を実行し、テキストの背後にあるオブジェクトまたは物を必要とする:グーグルマップの知識のスローガン「ものではない文字列は」知識のマッピングの本質を明らかにしました。

ロナウドにより、例えば、ときに、ユーザーが知識マップなしで、キーワードとしての「ロナウド」を検索し、我々は唯一のキーワードを含むページを取得し、必要な関連情報を見つけるためにウェブサイトにクリックしなければならなかったことができます。知識マップでは、同時に検索エンジンのリターンページは、「知識カード」我々はカードに必要な情報は、さらなる操作を必要としない場合は、クエリオブジェクトは、基本的な情報が含まれているに戻ります。つまり、知識マップは、クエリの効率を向上させることができ、私たちはより正確に、より構造化された情報を取得してみましょう。

もちろん、これは、検索エンジンでの知識・マップ・シナリオの一部でしかありません。この例ではコンピュータサイエンスの誕生、インターネットの発展の流れに沿ったものであるか、そのような概念マッピング知識や技術を、実証します。

知識マップ記憶

知識マッピング格納するには2つの主な方法がある:一方はRDF記憶に基づいており、他方は、格納された地図データベースに基づいています。図に示すように、それらの間の差。重要な設計原理RDFは、データを公開し、共有することは容易である、地図データベースは、効率的にフォーカスを置き、検索クエリに描きます。第二に、RDFは、データを格納するための方法を3倍と属性情報が含まれていませんが、地図データベースは、一般的に絵が基本的な表現を示す属性、エンティティは、ビジネスシーンのリアリティを表現するために容易に意味、属性および関係を含むことができ。

根据最新的统计(2018年上半年),图数据库仍然是增长最快的存储系统。相反,关系型数据库的增长基本保持在一个稳定的水平。同时,我们也列出了常用的图数据库系统以及他们最新使用情况的排名。 其中Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。如果选择使用RDF的存储系统,Jena或许一个比较不错的选择。

知识图谱的应用

从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关,它在技术领域的热度也在逐年上升。下面我们简单介绍下几个典型的应用。

反欺诈

知识图谱在反欺诈作用非常大,反欺诈最终目的是识别坏人,把坏人跟其他的未知人群的关系找出来,从而认定其他未知人群是否是坏人,这个跟信用模型是很不一样的,如果原来只能看一层的关系,现在可以看两层三层四层,效果就完全不一样了,很多团伙、中介实际上是要看很大规模的一张网,看很多层关系,关系之间还有强关系、弱关系。

下图是我们将知识图谱应用于反欺诈中的示例图:

目前将用户信息,设备信息及社交关系构建了一个异构网络,并将该异构网络图应用在用户关联分析及反欺诈检测场景。根据数据图我们可以对用户做以下调查分析,来确定特定的用户是不是欺诈用户或者是不是与欺诈用户有关联:

  • 通过特定规则筛选可疑用户
  • 查看与可疑用户有特定关联的用户
  • 查看与可疑用户有特定关联的所有用户组成的子网的网络特征及用户特征
  • 分析特定用户可以通过什么样的关联关系关联在一起
  • 可分析多层关联关系的数据

通过该方式,我们大大减少了调查过程中的工作量,整体提升效率。

智能搜索

智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。

推荐引擎

通过知识图谱,查询某节点的消费情况可为其推荐关联度高的可能消费的商品。

精准营销

一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心——分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。

总结

本文主要介绍了下知识图谱相关概念和在大数据分析中的一些应用。知识图谱为互联网上大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维,塑造出了反欺诈、智能营销、商品推荐等应用场景,给我们提供了更多思考和分析问题的方法。

おすすめ

転載: www.cnblogs.com/xiaodf/p/11262621.html