DeepChem的数据集

DeepChem数据处理
DeepChem的dc.data模块包含处Dataset对象的各种工具。这些Dataset对象是DeepChem的核心。Dataset对象是机器学习中数据集的抽象。也就是特征,标签,权重,以及相关标识的集合。在此仅作展示,而不是深入的解释。
>>> import deepchem as dc
>>> import numpy as np
>>> N_samples = 50
>>> n_features = 10
>>> X = np.random.rand(N_samples, n_features)
>>> y = np.random.rand(N_samples)
>>> dataset = dc.data.NumpyDataset(X, y)
>>> dataset.X.shape
(50, 10)
>>> dataset.y.shape
(50,)
我们用NumpyDataset类,是存贮在内存中的数据集。这对于小型数据集可以工作得很好,也很便于实验,但是对于大型数据集就不是很方便。大型数据集我们有DiskDataset类。
>>> dataset = dc.data.DiskDataset.from_numpy(X, y)
>>> dataset.X.shape
(50, 10)

更多有关DeepChem的中文资料请见www.data-vision.net医药化工版块。

猜你喜欢

转载自blog.csdn.net/lishaoan77/article/details/113954915
今日推荐