（二）图灵联邦视频CTR初实践 - 代码天地

（二）图灵联邦视频CTR初实践

其他 2019-11-21 21:34:12 阅读次数: 0

　　今天洗数据，差不多浪费了一天时间，最后还是用0直接填充缺失的时间戳和用户注册id.

　　一开始想用选用最近的、拥有相同设备id的条目进行注册id的填充，遇到两个问题：1.python环境下单线程算法效率很差；2.测试集中也有缺失注册id的条目，就近填充不符合直觉。

　　今天的感受是对于这种千万级的数据处理，如果需求奇特、没有高效率的库，还是得用多线程或者分布式完成。十万级别数据靠单线程还是可以很快处理完，大概花费十来分钟。另外python的各种习惯写法很影响代码效率，如果自己理解不行，最好选择调用写好的而不是造轮子。

　　另外今天稍微研究了一下onehot和embedding。以前一直陷入一个误区,特征要先onehot升维再embedding降维。各种博客对这方面一直讲的很笼统。对于那些userid之类,还是应该先用hash映射，直接用Index去embedding，或者说深度模型本来就不需要对这种进行onehot处理。存储可以选择用字典。

猜你喜欢

转载自www.cnblogs.com/cd4everyoung/p/11908496.html

（二）图灵联邦视频CTR初实践

（一）图灵联邦视频CTR初实践

[图灵联邦] 视频点击预测大赛

模块联邦实践

ActiveMQ初实践之【二】——持久化方式

点击量预测(CTR)——PNN理论与实践

点击量预测(CTR)——FNN理论与实践

点击量预测(CTR)——NFM理论与实践

点击量预测(CTR)——DeepFM理论与实践

初认联邦学习—背景和框架介绍

UML视频初总结

图灵机器人初接触

短视频秒播优化实践（二）

[图灵程序设计丛书].GitHub实践

联邦学习_王树森_视频整理

SpringBoot整合Redis初实践

golang的初认识以及实践

React+Mapbox初实践

CTR预估算法之FM, FFM, DeepFM及实践

计算广告CTR预估系列--Wide&Deep理论与实践

点击量预测(CTR)——FM（Factorization Machines）理论与实践

点击量预测(CTR)——Wide&Deep理论与实践

【CTR】美团搜索粗排优化的探索与实践

指针初认识（二）

Angular初接触（二）

初涉springboot(二)

初入jsp二

SVG初尝试(二)

初入江湖（二）

联邦学习论文阅读二：PRECAD

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

《Python 编程-从入门到实践》11-1~11-3

关于Numpy+TensorFlow+PyTorch构造NN的总结

【原创达人】制作WINPE启动盘心得

英文图片文字识别（提取）

2022cma看片网站给一个你懂的

二叉搜索树的实现（BST）（插入+删除+查找+各种遍历+高度）

搬家通知博文地址(将博客搬到CSDN)

asfd

解决错误：MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk

如何注册微信个人小程序

每日归档

更多

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)