阿里天池大赛[商场中精确定位用户所在店铺]赛后总结

版权声明:有错误还请斧正,感激不尽。 https://blog.csdn.net/Gentle_Guan/article/details/78593865

题目以及数据介绍

商场中精确定位用户所在店铺

1
2
3
4
5
主要就是根据各种信息确定某个user到底是在那个shop中
具体的csv文件
AB榜测试集合:
AB

user训练数据:
train

mall shop对照表:
mall_shop

初始思想

1.首先 拿过来一看 就是进行特征分析, 这么多特征 先从经纬度考虑….. 毕竟是定位赛题目…..
so 看看经纬度分布的图片

AB测试集 AB榜测试集经纬度图像

2.想了想这个题目的要求是确定店铺而不是商场,而店铺又独立存在于商场中,所以就分了商场来处理,一共是97个mall:
mall 省略那80个….

再来看看经纬度分布图:

m_615 mall 615 经纬度图像

m_622 mall 622 经纬度图像

额…
其实这里面有很多的点, 都聚集到一块了….

所以刚开始直接用的wifi跑
3.wifi的使用:把一个商场所有的wifi找出来,做成label,每条数据有这个wifi就填写强度,没有就写0,数值处理到0-100之间(忽略0对负数分贝的影响) 然后训练测试的是时候进行PCA
问题:每个mall训练与测试集合wifi个数不同
处理方法:舍去训练集中没有的wifi…..

# 降维模型
PCA(n_components=300, whiten=True)
# 处理模型:
RandomForestClassifier(n_estimators=100, n_jobs=-1, criterion="entropy")

具体数据截图:…….好多wifi

0

结果: 线上a榜86.45% b榜85.70%

中间思想

1. 第一次提交完成 接下来考虑优化了
只能用wifi感觉有点太浪费了,对于模型的选择初始是用svm后来发现太耗时了,改用随机森林开始跑,效果还可以~~~
后来发现时间还没有利用,类别category也没有用,(当时想不用了,因为测试集没有训练集有)

这里写图片描述 时间:每个小时的记录分布图

大致利用时间来划分以下类别,然后one_hot一下
[11,15] [16,21] [other]
分成三大类,对应午餐时间,下午茶时间(?_?),以及晚上凌晨时间
对应 0 1 0 ,1 0 0 ,0 0 1 三类
然后把经纬度加上去, 具体训练数据如下:

这里写图片描述

# 和上一次模型一样0.0
# 降维模型
PCA(n_components=300, whiten=True)
# 处理模型:
RandomForestClassifier(n_estimators=100, n_jobs=-1, criterion="entropy")

由于搞错了时间 这一发没交上…….
所以线下cv测试,

clf = RandomForestClassifier(n_estimators=100, n_jobs=-1, criterion="entropy")
scores = cross_val_score(clf, train_data, train_lable, cv=10, scoring='accuracy')

结果:
这里写图片描述 也就是平均准确率为88.74%,恩提升还可以 (?_?)

其他思想

打算换个模型试一下,以及降维的时候只针对wifi降维,不把其他特征降维了。
等赛后看复现赛试一下吧

心得感悟

应该是第一次参加比赛吧,首先处理文件浪费了很多时间,其次就是数据太大,自己电脑跑得慢,所以准备学习一下spark….
以后处理数据的时候尽可能的多处理数据,争取一次提取有用信息然后进行多次优化,因为文件太大处理那么慢很难受啊
模型调参多利用cv来跑,毕竟线上提交资源有限呢。。。。
(已完结)

猜你喜欢

转载自blog.csdn.net/Gentle_Guan/article/details/78593865