Cloudopt 开源基于机器学习的隐私保护引擎 —— Baize (白泽)

白泽是中国古代神话中地位崇高的神兽,祥瑞之象征,传说中白泽可以预测吉凶,是令人逢凶化吉的吉祥之兽。白泽亦能说人话,通万物之情,晓天下万物状貌。

白泽是直接运行在浏览器上且基于机器的隐私保护引擎,能够有效的阻挡跟踪脚本、恶意广告脚本。使用 JavaScript 开发,可以运行在 Node.js、浏览器环境中。

传统的过滤方式是使用过滤规则进行过滤,但这些过滤规则都是基于开源组织、公益组织或个人手动更新的,需要耗费大量的人力进行维护。我们模仿杀毒软件的启发式引擎,基于集成学习,提出了一种自动有效的机器学习方法。通过脚本的多维度特征来学习并创建分类器从而阻止跟踪脚本及恶意广告脚本。

我们收集了 Alexa top 100 网站中的首页所有的网络请求,合计 11764 行作为训练。同时为了达到更好的测试效果,我们选取了国内的一些知名网站且不包含在训练集中的网站的首页网络请求,合计 760 行。

我们对测试集的数据进行了测试,白泽获得了高达 91.8% 的准确率。它能以 65% 的准确率识别出绝大多数的恶意请求。

name acc auc recall
Baize 91.8% 78.3% 80.2%

绝大多数情况下,预测一个网络请求是否安全仅需要 0.1 ms。

英文文档:

https://github.com/cloudoptlab/baize

中文文档:

https://github.com/cloudoptlab/baize/blob/master/README_ZH.md

猜你喜欢

转载自www.oschina.net/news/119495/cloudopt-opensource-baize