KDD CUP 1999数据集用onehot编码处理

因为数据集的 1 2 3字段(从0开始)是分类特征字段(category feature),分类算法无法直接使用。

因此要将其转换成为数值字段。
在这里用的是one-hot encoding独热编码(或者说是1 of k encoding)

举个例子,比如某个字段有四个取值,梨,苹果,桃子,香蕉。
那么这四种分类,编码以后会转换成4个数值字段。

梨  0 0 0 0

苹果 0 1 0 0

香蕉 0 0 1 0

桃子 0 0 0 1

大该是这么个意思。

下面是原数据和处理完的数据的对照表。(这是第一条数据,normal标记成1,输出格式是label+特征字段)

数据集中的第1列,也就是红色部分,有三种取值。tcp ,icmp ,udp.转换完成以后,有三个数字代表这一列。

绿色字段的测试集加上训练集取值有70种,但随机抽样的训练数据中仅包含50种,因此用50个表示。

同理,第三个字段应该是11,但抽样的时候仅有8种,用8个表示。

其他数字字段暂不处理。


猜你喜欢

转载自blog.csdn.net/qq_29931083/article/details/80252410
今日推荐