一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第19天,点击查看活动详情 Hello,非常感谢你的关注~ 我是机器学习与风控,一名末流985的本硕,无顶会、无大厂核心部门实习,拥有多个比赛的竞赛经历,秋招刷了leetcode500题,在秋招提前批中收获字节跳动,腾讯,阿里,美团等大厂offer,最终选择入职字节风控,从事与黑产对抗的工作。我会定期分享我的春招、秋招亲身求职体验;算法岗日常工作;数据挖掘比赛,经典图模型等日常学习等有料也有趣的内容~秋招到了,欢迎各位私信找我内推!!!部门缺少开发,算法等岗位验证缺人。
1.IEEE BigData 2021 Deep Fraud Detection on Non-attributed Grap
个人总结:
主动学习和一个有趣的选择器!!剩下的都是常规操作,类似HAN的东西。
动机:
GNN有同质性假设,欺诈者擅于伪装。因此通过共享实体进行识别(IP或者设备),在图上紧密相连。因此GNN可以检测。
缺陷:
1.每个场景下需要个性化构造图。
2.需要属性(破坏隐私)
贡献
1.提出了一个通用的图构造和节点初始化方法。首先提出一个方案把原始的 图转换成一个更小的图
2.初始化特征方案。(度数一类的东西)
3.自训练保存更多信息,缓解标签困难问题。
模型
- 图构造
结构上:d个维度的one-hot,从而判断边的类型。 1.大大减少图尺寸,只保留了目标节点2.连接仍然保留3.单层的时候,同质忘了可以获得更多的邻居信息。
属性上:随机 ,节点度。pagerank,特征值
- 图预训练
对比学习思路做与训练:
- 数据增强。 正例:u节点的多次随机游走。负例:其它节点的随机游走
编码:Graph Isomorphism Network (GIN)
编码器训练:InfoNCE
参考moco的那套
模型微调:上述训练完成后,用交叉熵微调编码器。
预训练策略
实验数据集:
某个工业数据集。
无代码+数据
nips 2021 Distilling Meta Knowledge on Heterogeneous Graph for Illicit Drug Trafficker Detection on Social Media
个人总结:
社交网络下的贩毒检测。原始特征构建的适合考虑了多个模特的。做了一点点数据增强,从全局的角度 考虑构建自建度任务。 元学习。
多关系
1)利用 特征间相似性增强图表示
2)利用 自监督无标签数据(基于属性从全局找到详细的节点和不相似的节点构造 训练标签)。
数据和代码暂无。
下一篇会介绍《www21 Pick and Choose: A GNN-based Imbalanced Learning Approach
for Fraud Detection》