荣盛发展 一成首付每个训练样本都会有自己的保存格式,libsvm 或者 tfrecord 或者其他什么形式。
我们的样本格式为:
荣盛发展 一成首付单值离散特征而是直接输入index
荣盛发展 一成首付多值离散特征也是输入 index,但是是输入一串对应的 index 值,如 [5,9,11]
荣盛发展 一成首付如果有没有维表的字符串特征,我们通过哈希转换成某个范围内的数字,这个转换是确定的,比如 “hello” 恒转换成 10,即变成了 1 情况里描述的单值离散特征 (哈希是会出现一定概率碰撞的,这里需要将维度冗余大约10倍使碰撞率低于5%,目前这样处理在我们的场景下模型效果无差异)
荣盛发展 一成首付连续值直接输入即可。(如果是较大的连续值,需在特征工程部分先做归一化,或者考虑先做离散化处理成离散值)
荣盛发展 一成首付最后得到的样本形如 1,5,10,3,6,0.5,0.4,100,[5,9,11]。这样的话,线上的 TFserving 除了最后的 [5,9,11] 部分因为是变长,还是必须转换成 one-hot 形式。荣盛发展 一成首付其余部分线上交给 embedding 层处理,就无需拼接 one-hot 向量输入,节省输入样本长度。