手写体数字识别（三）制作训练集

环境：Win10 64bit +VS2015（推荐VS2013与OpenCV 2.4.9兼容性好） +OpenCV 2.4.9

参考网页：http://www.cnblogs.com/xuanyuyt/p/6405944.html

特征提取方式：HOG（方向梯度直方图，Histogram of Oriented Gradient）

学习模型：SVM(支持向量机，Support Vector Machine)

本文目的：通过上一章获取的训练图片，制作训练集。

1. 准备数据训练集

MNIST数据集地址：http://yann.lecun.com/exdb/mnist/

用Matlab将数据集转化为.bmp格式

（该图片在名称中包含标签，需要处理较长时间）

将生成以下图片文件

【如需添加训练样本，可在此时添加分辨率为28*28的数字，以提高识别精度】

进入cmd指令生成图片名称文本；

【笔者图片根目录为“C:\Users\Liont\Desktop\Matlab\M_Project”】

进入cmd指令

输入"cd 图片根目录" 在cmd命令中进入文件目录下

如->“ cd C:\Users\Liont\Desktop\Matlab\M_Project ”

【图片若存储在其他盘，需转到其他盘后操作（如D盘），先输入"D:"再做cd操作】

通过命令 " dir /b/s *.bmp > numTXT.txt"输出名为“numTXT”的txt文本

文本中内容为该训练集图片的路径名

打乱训练样本顺序

对已生成文件名txt文档“numTXT.txt”操作：

2. 为数据集添加标签

a. 有上一步得出txt文件格式所示

如“C:\Users\Liont\Desktop\Matlab\M_Project\0_0001.bmp”中第40位为标签名称即将第四十位提出作为标签

利用C++编写程序，生成名为“Num.txt”的文本

第一行为数字图片所在文件根目录，第二行为该数字图片对应标签

#include <fstream>  
#include <string>  
#include <iostream>  
#define StartNum40                        //定义字符开始位数需根据具体目录调整标签位置
using namespace std;
int main()
{
ifstream in("Num.txt");
ofstream out("Result Num.txt");
string filename;
string line;
if (in) //有该文件 
{
while (getline(in, line))        //line中不包括每行的换行符 
{
//复制并输出Txt文件
cout << line << " " <<line[StartNum] << endl;
out << line << endl;
out << line[StartNum]<< endl;         // 输入到Result Num.txt中 
}
}
else // 没有该文件 
{cout << "no such file" <<endl;}
 
return 0;
}