荣盛发展 一成首付字符串特征,荣盛发展 一成首付有自己的保存格式

荣盛发展 一成首付每个训练样本都会有自己的保存格式,libsvm 或者 tfrecord 或者其他什么形式。

我们的样本格式为:

荣盛发展 一成首付单值离散特征而是直接输入index

荣盛发展 一成首付多值离散特征也是输入 index,但是是输入一串对应的 index 值,如 [5,9,11]

荣盛发展 一成首付如果有没有维表的字符串特征,我们通过哈希转换成某个范围内的数字,这个转换是确定的,比如 “hello” 恒转换成 10,即变成了 1 情况里描述的单值离散特征 (哈希是会出现一定概率碰撞的,这里需要将维度冗余大约10倍使碰撞率低于5%,目前这样处理在我们的场景下模型效果无差异)

荣盛发展 一成首付连续值直接输入即可。(如果是较大的连续值,需在特征工程部分先做归一化,或者考虑先做离散化处理成离散值)

荣盛发展 一成首付最后得到的样本形如 1,5,10,3,6,0.5,0.4,100,[5,9,11]。这样的话,线上的 TFserving 除了最后的 [5,9,11] 部分因为是变长,还是必须转换成 one-hot 形式。荣盛发展 一成首付其余部分线上交给 embedding 层处理,就无需拼接 one-hot 向量输入,节省输入样本长度。

发布了64 篇原创文章 · 获赞 0 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/dongsijia/article/details/103865231