(二)图灵联邦视频CTR初实践

  今天洗数据,差不多浪费了一天时间,最后还是用0直接填充缺失的时间戳和用户注册id.

  一开始想用选用最近的、拥有相同设备id的条目进行注册id的填充,遇到两个问题:1.python环境下单线程算法效率很差;2.测试集中也有缺失注册id的条目,就近填充不符合直觉。

  今天的感受是对于这种千万级的数据处理,如果需求奇特、没有高效率的库,还是得用多线程或者分布式完成。十万级别数据靠单线程还是可以很快处理完,大概花费十来分钟。另外python的各种习惯写法很影响代码效率,如果自己理解不行,最好选择调用写好的而不是造轮子。

  另外今天稍微研究了一下onehot和embedding。以前一直陷入一个误区,特征要先onehot升维再embedding降维。各种博客对这方面一直讲的很笼统。对于那些userid之类,还是应该先用hash映射,直接用Index去embedding,或者说深度模型本来就不需要对这种进行onehot处理。存储可以选择用字典。

猜你喜欢

转载自www.cnblogs.com/cd4everyoung/p/11908496.html