LEAF:一个联邦学习的基准数据集

LEAF提供了几个联邦学习的数据集,及简单的联邦学习例子,使用的算法是联邦平均算法,其代码是用python写的,机器学习的框架是tensorflow,所以如果要跑上面的例子,注意需要安装的环境,里面有个requirements.txt列出了要下载的python包。其地址为

https://talwalkarlab.github.io/leaf/

目前有6个数据集,可以选择是否切分为独立同分布(iid)。
1、FEMNIST
一个图像分类的数据集,识别英文字母和数字。有3550个用户,总共805263个样本,平均每个用户226.83个样本。
2、Shakespeare
预测下一个字符的语言模型数据集,从莎士比亚的作品全集中采集而来。有1129个用户(一个用户是作品中的一个角色),总共422615个样本。
3、Twitter
在Twitter上采集的数据,用于情感分析。有660120个用户,共1600498个样本。
4、Celeba
是一个带有注释的人脸数据集,可用于图像分类任务的训练。有9343个用户,共200288个样本
5、Synthetic Dataset
分类的一个数据集,有1000个用户,共107553个样本
6、Reddit
语言模型的一个数据集,有1660820个用户,共56587343个样本,是一个大数据集。

猜你喜欢

转载自blog.csdn.net/watqw/article/details/124415422