这是kaggle上的项目,数据集可以到kaggle上下载
kaggle下载数据集需要注册,第一次注册需要翻墙,以后登陆就不要了
观察特征
每个表的行是用户样本,列是对应的特征,首先我们需要合并表,这里需要一些pandas的基础。
pd.read_csv(’./products.csv’),读取表数据,这个readcsv函数很万能
pd.merge(prior, products, on=[‘product_id’, ‘product_id’]),把prior表和priducts表按照product_)id合并
将所有的表按照上面的方法合并之后我们可以看到如下
因为特征太多没有都显示。
#cross = pd.crosstab(mt[“user_id”], mt[‘aisle’])
建立交叉表
#进行主成分分析降维
代码如下
PS:因为数据量太多了,我出去尿泡尿还没运行出来我就关掉了,有兴趣的可以自己敲打代码运行。