Sklearn之日常所见

sklearn.datasets.fetch_20newsgroups


sklearn.datasets.fetch_20newsgroups(data_home=None, subset=’train’, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)

加载20个新闻组数据集的文件名和数据。

参数 说明
data_home 可选属性,默认为 None ,指定数据集的下载和缓存文件夹。 如果为 None ,则所有 scikit-learn 数据都存储在 ‘〜/ scikit_learn_data’ 子文件夹中。
subset 可选属性,可以为 train’test, all ,选择要加载的数据集:train 为训练集,test 为测试集,all 为训练集和测试集
categories None 或字符串集合或 unicode ,默认为 None ,表示加载所有类别。如果不为空,则加载指定的类别。
shuffle 可选属性, bool 类型。选择是否对数据集进行 shuffle 操作。
random_state numpy 随机数生成器或整数种子。用于对数据集进行 shuffle 操作。
remove 可能包含( ‘headers’, ‘footers’, ‘quotes’)的任何子集。 其中每种都是将从新闻组帖子中检测到并删除的文本类型,从而防止分类符过度拟合元数据。
download_if_missing 可选属性,默认为 True 。如果为 False ,若数据不是本地可用的,而是尝试从源站点下载数据,则引发 IOError

猜你喜欢

转载自blog.csdn.net/wangyang163wy/article/details/79896661
今日推荐