深い学習に、ニューラルネットワーク(GNN)ライジングをマッピング

解釈可能と推論の観点から学習の深さは(GNNs)を学習ニューラルネットワークを計算し、マッピングするために深チャートと組み合わせた比較的大きな制限が存在することができますので、学界と産業界における最近の研究の一つとなった新たな方向性の高い熱です。業界では一般的にGNNだけでは解決できない上記の2つの欠陥の深さの調査を作ることができ、と信じています。GNN昨年は、より多くのアプリケーションシナリオに成功しているが、それはまだ多くの課題に直面しています。

今年のデータマイニングで蟻ゴールドのドレスは、トップレベルの意志KDD 2019の分野における研究シンポジウムのテーマとして「ニューラルネットワークの研究と実用化マップ」を開催しました。大規模な工業シーン、困難な課題が現在直面し、技術進歩の可能な将来の方向のアプリケーションでは、金のドレス人工知能研究者の歌の音楽アリにインタビュー話をする幸運記者とGNNの深さの研究と実践をInfoQに。
深い学習に、ニューラルネットワーク(GNN)ライジングをマッピング

KDD 2019での歌の音楽教師

GNNは「AI熱い」となっている
最後の2年間で深い学習、マップのニューラルネットワーク(GNN)の伝統的な方法に加えとして認識されている「AIの成り上がり。」深さの機械学習/マップとの研究と分析の構造の強力な表現力ビューがますます注目学習ので。地図ニューラルネットワーク(GNN)による優れたパフォーマンスと解釈可能にチャート分析法が広く使用され、より多くの人々のようにそれを見るだろうとなっている「技術の新世代の深い学習。」ここ数年、学界と産業界は、さらにこの地域の積極的な開発を促進するためにGNN関連するフレームワークとツールを立ち上げました。

GNN 提供了图表征学习(Graph representation learning)或图嵌入技术(Graph embedding)的框架,可以用于各种图数据上的监督,半监督及强化学习。GNN将图上的元素,如节点,连接或者子图表达成为一个向量,而不同元素所对应的向量之间的距离保存了它们在原图上的相似关系。这样将拓扑关系表达为特征空间中的向量的做法,本质上是一种基于拓扑信息的特征提取过程,其结果是沟通了传统的图分析和各种传统机器学习或数据挖掘方法,在推荐系统、知识图谱构建及推理等领域都有许多应用。比如说,可以通过引入了图卷积操作构造了一个适用于图数据的半监督学习框架,用于提取更精确的特征表达或直接进行分类操作,并可以结合图像分割、视频理解、交通预测等许多领域开始探索其应用价值。无论对于图分析还是深度学习,GNN 都是一个极有价值的的演化。

GNN 的出现解决了传统深度学习方法难以应用到非规则形态数据上的痛点,大大扩展了神经网络的应用空间,并在一些问题上改进了模型的可解释性。对于许多建立在非规则形态数据基础之上的业务场景,诸如推荐、消歧、反欺诈等,GNN 都有极大的应用潜力。以蚂蚁金服为例,GNN 已经广泛部署于普惠金融业务的推荐和风控中。

宋乐还列举了两个比较有趣的新应用:

一个是 GNN 在知识图谱上推理的应用。知识图谱是蚂蚁金服非常重要的研发方向之一,借助知识图谱可以把中国所有注册企业都联系起来,图谱里每个节点可能就是一个注册的商家,这个节点数量可能会达到几千万。这些商家之间可能有一些是供应商关系,有一些是同行竞争对手的关系,有一些可能是存在法律诉讼的关系。如果想根据这个图来做一些预测和推测,用于普惠金融业务的推荐和风控,就可以借助 GNN。

另一个是动态图的应用。本质上,所有金融交易问题都是动态的,谁在什么时间买了什么东西,都是有一个对应的时间戳的,随着新的交易发生、新的账号产生,整个图应该是在不断变化的。如何把时间和图的结构一起考虑进去做表征,这个也是比较有挑战性的前沿问题。目前蚂蚁金服正在贷款准入模型中尝试应用动态图。

除此之外,据宋乐保守估计,GNN 目前至少已在阿里巴巴数十个业务场景落地。不过这只是 GNN 发展乐观的一面。

从业界整体落地情况来看,GNN 仍然处于发展初期。从 2018 年 10 月,由 DeepMind、谷歌大脑、麻省理工等近 30 名学者联名在 ArXiv 上传的论文《Relational inductive biases, deep learning, and graph networks》将 GNN 相关工作推到一个新的高度以来,GNN 火热发展还未到一年,很多本质问题尚未突破。与工业级深度学习应用面临的问题类似,GNN 要真正做到在工业界大规模落地,在底层系统架构方面仍需要做大量工作。

如何大规模落地 GNN 仍面临挑战
在宋乐看来,目前 GNN 在工业界大规模落地面临的挑战主要在于大规模图网络的训练和线上更新预测两方面。未来互联网公司只要涉及 GNN 相关应用工作,几乎都逃不开大规模图网络。

首先,工业级业务场景,尤其是互联网公司的业务场景,图网络规模通常都很大,至少包含亿级,甚至是十亿级、百亿级的图节点和边。要计算这么大规模的图神经网络,通常一台机器是无法达到想要的效果的,这时就需要一个专门的分布式图计算平台。如果没有一个平台能够支撑 GNN 所需的海量计算,就很难把 GNN 做好。但目前就业界来说,GNN 平台的进展仍然比较慢。还没有哪个企业能够推出一个足够好的开源 GNN 平台,并且能自信地表示可以很好地支持亿级节点的图网络。

在对GNN 模型进行训练时,算法需要与分布式图存储平台进行高效交互,这也是非常有挑战性的一项工作。在模型训练时,算法需要不断随机查询节点、节点的邻居和邻居的邻居,取出数据放到内存中做深度学习模型的前向 Inference 和后向的回传,这在大规模图上其实是很难做好的。对于 GNN 平台来说,做深度学习以及和数据库打交道这两个环节常常是导致速度慢最大的瓶颈。在过去两年,蚂蚁金服在分布式图存储这个方向上做了很多努力,目前已经开发出了一个高效的分布式图存储平台,以及可以跟这个图存储平台比较高效地交互的图训练平台。从数据上看,原来需要几天时间的亿级图网络训练已经可以缩短到一个小时以内。

大规模图神经网络在线上的预测也是难点之一。GNN 的 Embedding 并非实时的,以金融交易场景为例,每次出现一笔新的交易,图网络就会多一条边,图就会发生变化,如果想做好实时预测,就需要用最新的边根据这个 GNN 的参数,算出它的表征来进行预测。但是通常在线上环境中,要在非常短的响应时间内构一个图,把 GNN 计算好非常困难,特别是在交易量很大的情况下,通常都存在一定的滞后。如何让GNN 能够在线上高效地直接做这个运算,这个挑战还没有完全解决,需要和底层的系统架构做一些合作。

ソング越は率直に言って、GNN、マップの計算自体が困難な業界であっても問題はありません。マップおよび画像は、テキストが異なって、グラフ内の各ノードの近隣の数が同じノードタイプに接続されていない同じではないので、エッジの同じタイプではない、不規則な操作の多くを製造するために、各計算ノードのニーズなく、同じ程度。コンピュータは、正規表現のために特に適しているが、不規則な操作のために自然に適していない、計算グラフが不規則な操作に属し、伝統的なグラフアルゴリズムが研究の多種多様を持って前に、彼らは問題を解決できない、GNNと相まってこの研究は、深さの層を導入し、複雑さは難易度がさらに大きくなり、急激に増加につながります。だから、非常に短時間でトレーニング結果と予測GNNを取得する方法、大きな課題があります。モデリングの時にこの問題を解決することができる場合は、GNNのトレーニングと予想は十分に高速で行われ、その後、アルゴリズムエンジニア、あなたはすぐに、さらに、GNN GNNの効果と異なるネットワーク構造の様々な効果を試すことができますGNNの変更は、結果を改善します。

学界や業界のかどうかは、現時点でまだ比較的最先端の問題であり、これは現在のGNN分野におけるボトルネックの一つです。グーグル、Facebookや業界内の他の大企業が、GNNプラットフォームの開発を促進しますが、大規模な分散ネットワークコンピューティングの主流のオープンソースプラットフォームの本当に良いビューがありませんします。

おすすめ

転載: blog.51cto.com/14164343/2429700