【数据应用案例】根据代码风格识别作者 - 代码天地

【数据应用案例】根据代码风格识别作者

其他 2018-08-29 10:11:16 阅读次数: 0

案例来源：@量子位 @Edwin Dauber @Aylin Caliskan

案例地址：https://mp.weixin.qq.com/s/2Jv2TBS_jFrdfRN7rZStLw；https://arxiv.org/pdf/1701.05681.pdf

1. 目标：根据代码，识别代码属于哪个作者。可应用于代码抄袭检测

2. 数据：从github上获取1178个作者的C++代码，筛选出106个作者，他们的代码行数>=150行

3. 特征工程：

1）使用fuzzy parser获取代码的抽象语法树（AST）

2）抽取AST上的keyword，word unigram，api symbols作为特征，得到功62521个特征

3）特征tfidf化

扫描二维码关注公众号，回复： 2937904 查看本文章

4. 分类器：随机森林

5. 效果：

1）在每个人提供8个代码样本的情况下，机器学习算法识别100个程序员的准确率为96%。即使将样本量扩大到600位程序员，算法仍能达到83%的准确率

2）有经验的开发人员比新手更容易识别：62名程序员每人解决了七个“简单”问题，算法去匿名化的准确率为90%。但若每人解决7个“难题”，算法准确率将提高到95%

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/81869860

【数据应用案例】根据代码风格识别作者

Python代码用多种方式实现识别文本风格和作者数量(SVM,LogicRegression)

【数据应用案例】通过字体识别国籍

学习前辈代码编写的风格---锚点跳转(纠正了作者认知的错误)

【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

【数据应用案例】基于图像搜索引擎的图文无关识别方法

pandas数据应用案例

FreeRTOS 数据类型和代码风格

xgboost模型代码及应用案例

几个Arcpy代码应用案例

深度学习入门中根据源代码下载到mnist数据集,训练识别率超级低问题

代码风格

Spring Boot 中 10 行代码构建 RESTful 风格应用

半小时完成图像风格迁移应用,从代码到部署。

【数据应用案例】用户画像与实践案例

深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)

100. 实际案例分析 - 根据应用程序日志的记录，反查出哪一行 ABAP 代码产生的这条日志

大数据 hadoop 应用案例

MATLAB算法实战应用案例精讲-【数据分析】异常检测（附python代码实现）

数据规整：数据库风格的 dataframe 连接（merge方法），根据索引合并（join方法）

【Pytorch神经网络实战案例】29 【代码汇总】GitSet模型进行步态与身份识别(CASIA-B数据集)

使用深度学习（tensorflow）识别动物的简单案例（vgg16）包含数据集及代码——0基础版

人工智能数据标注案例之人脸识别案例

特殊应用：人脸识别和神经风格迁移 - -DeepLearning.ai 学习笔记（4-4）

深度学习——特殊应用：人脸识别和神经风格转换[13]

DeepLearning.ai作业:(4-4)-- 特殊应用:人脸识别和神经风格转换

DeepLearning.ai笔记:(4-4)-- 特殊应用:人脸识别和神经风格转换

DL课程：CNN及相关应用案例代码

GAN应用案例+简单代码(基于Tensorflow)

• 实战案例：科技工作者心理健康数据分析

今日推荐

周排行

键盘回车事件

提升git clone的速度

JDK8系列之LongAdder解析

ajax+formData完成多图片回显上传

个税起征点上调至5000元，你能多拿多少钱？

Exploding Carbon Nanotubes Could Work as Drug-Bas power sensor ed Delivery Devices

南京邮电大学网络攻防训练平台逆向第四题WxyVM

HTTP状态码记录

报错Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解决办法

sublime编译c

每日归档

更多

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)