因为数据集的 1 2 3字段(从0开始)是分类特征字段(category feature),分类算法无法直接使用。
因此要将其转换成为数值字段。
在这里用的是one-hot encoding独热编码(或者说是1 of k encoding)
举个例子,比如某个字段有四个取值,梨,苹果,桃子,香蕉。
那么这四种分类,编码以后会转换成4个数值字段。
梨 0 0 0 0
苹果 0 1 0 0
香蕉 0 0 1 0
桃子 0 0 0 1
大该是这么个意思。
下面是原数据和处理完的数据的对照表。(这是第一条数据,normal标记成1,输出格式是label+特征字段)
数据集中的第1列,也就是红色部分,有三种取值。tcp ,icmp ,udp.转换完成以后,有三个数字代表这一列。
绿色字段的测试集加上训练集取值有70种,但随机抽样的训练数据中仅包含50种,因此用50个表示。
同理,第三个字段应该是11,但抽样的时候仅有8种,用8个表示。
其他数字字段暂不处理。
因此要将其转换成为数值字段。
在这里用的是one-hot encoding独热编码(或者说是1 of k encoding)
举个例子,比如某个字段有四个取值,梨,苹果,桃子,香蕉。
那么这四种分类,编码以后会转换成4个数值字段。
梨 0 0 0 0
苹果 0 1 0 0
香蕉 0 0 1 0
桃子 0 0 0 1
大该是这么个意思。
下面是原数据和处理完的数据的对照表。(这是第一条数据,normal标记成1,输出格式是label+特征字段)
数据集中的第1列,也就是红色部分,有三种取值。tcp ,icmp ,udp.转换完成以后,有三个数字代表这一列。
绿色字段的测试集加上训练集取值有70种,但随机抽样的训练数据中仅包含50种,因此用50个表示。
同理,第三个字段应该是11,但抽样的时候仅有8种,用8个表示。
其他数字字段暂不处理。