腾讯广告算法赛Top4—SDD特征处理2 - 代码天地

腾讯广告算法赛Top4—SDD特征处理2

企业开发 2018-08-16 11:30:56 阅读次数: 0

ID类特征处理

我的知乎地址：https://zhuanlan.zhihu.com/p/42089584 求关注

import pandas as pd
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import OneHotEncoder,LabelEncoder
from scipy import sparse
import os
import numpy as np
import time
t1=time.time()
ad_feature=pd.read_csv('adFeature.csv')
user_feature=pd.read_csv('userFeature.csv')
print('all time:',time.time()-t1)
train=pd.read_csv('train.csv')
predict1=pd.read_csv('test1.csv')
predict2=pd.read_csv('test2.csv')
predict=pd.concat([predict1,predict2])
train.loc[train['label']==-1,'label']=0
predict['label']=-1
data=pd.concat([train,predict])
data=pd.merge(data,ad_feature,on='aid',how='left')
data=pd.merge(data,user_feature,on='uid',how='left')
data=data.fillna('-1')
save_feature=['aid','uid','label','LBS','age','carrier','consumptionAbility','education','gender','house','os','ct','marriageStatus','advertiserId','campaignId', 'creativeId',
       'adCategoryId', 'productId', 'productType','creativeSize']

data=data[save_feature]
one_hot_feature=['LBS','age','carrier','consumptionAbility','education','gender','house','os','ct','marriageStatus','advertiserId','campaignId', 'creativeId',
       'adCategoryId', 'productId', 'productType','creativeSize']
for feature in one_hot_feature:
    try:
        data[feature] = LabelEncoder().fit_transform(data[feature].apply(int))
    except:
        data[feature] = LabelEncoder().fit_transform(data[feature])

single_emb=['LBS','age','carrier','consumptionAbility','education','gender','house','os','ct','marriageStatus','advertiserId','campaignId', 'creativeId','adCategoryId', 'productId','productType','creativeSize']
#singel_max=[853,5,3,2,7,2,1,4,64,26,78,137,172,39,32,3,14]

for i in single_emb:
   print(data[i].max())

data.to_csv("./SDD_data/final_sdd_single_onehot_embedding_feature2_mix_test12.csv",header=True,index=False)

猜你喜欢

转载自blog.csdn.net/ML_SDD/article/details/81702046

腾讯广告算法赛Top4—SDD特征处理2

腾讯广告算法赛Top4—SDD特征处理4

腾讯广告算法赛Top4—SDD特征处理1

腾讯广告算法赛Top4—SDD特征处理5

腾讯广告算法赛Top4—SDD特征处理3

腾讯广告算法赛Top4—SDD模型2—FFM_keras

腾讯广告算法赛Top4—SDD模型1—FM_keras

bit-z捷报|TokenInsight评级BBB，荣登Top4

Top4 数据科学竞赛解决方案 | 附带报告+方案+代码讲解+数据集

【转载】备战腾讯社交广告算法大赛 · 七种常用特征工程

腾讯广告算法大赛2019

2020腾讯广告算法大赛风云再起，“逆算”赛题比拼来袭！

通过Ti-One机器学习平台玩转2020腾讯广告算法大赛：数据预处理

4、特征预处理

2018腾讯广告算法大赛竞赛记录

腾讯社交广告高校算法大赛——总结

腾讯2019广告算法大赛总结

2020 腾讯广告算法大赛初赛总结

诚征男友！本人TOP4本硕，96年出生，985高校工作，颜值尚可，想两年内结婚

2020腾讯广告算法大赛——算法小白的复盘

(2)Top 6 移动广告mediation分析 Fyber Heyzap Ironsource

天池离线赛——移动推荐算法学习笔记2_特征工程

CART算法处理连续特征

特征提取算法（4）——LoG特征提取算法

2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签

2019腾讯广告算法大赛之清洗广告数据集和用户数据集

数据预处理2--特征处理

Lesson4-2:OpenCV图像特征提取与描述---Harris和Shi-Tomas算法

特征工程—特征预处理及K-近邻算法总结

（4）图像特征提取算法：LBP特征

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)