基于SVM 的文本分类

1、SVM 文本分类算法步骤如下:
1)利用向量空间模型处理方法把文本数据转化为SVM分类算法能处理的形式;
2)选择合适核函数，众多实验表明，一般情况下选择RBF作为核函数所得结果最好。
3)求解最优的参数。利用PSO（粒子群优化算法）最优化算法找出SVM分类器的最优参数。
4)利用3)所得到的最优参数应用SVM算法分类器来对文本样本数据进行训练并用测试集进行分类预测实验。

2、粒子群优化算法(PSO：Particle swarm optimization)

1)粒子群优化算法的基本思想：是通过群体中个体之间的协作和信息共享来寻找最优解．粒子群算法通过设计一种无质量的粒子来模拟鸟群中的鸟，粒子仅具有两个属性：速度和位置，速度代表移动的快慢，位置代表移动的方向。每个粒子在搜索空间中单独的搜寻最优解，并将其记为当前个体极值，并将个体极值与整个粒子群里的其他粒子共享，找到最优的那个个体极值作为整个粒子群的当前全局最优解，粒子群中的所有粒子根据自己找到的当前个体极值和整个粒子群共享的当前全局最优解来调整自己的速度和位置。

2)更新规则:PSO初始化为一群随机粒子(随机解)。然后通过迭代找到最优解。在每一次的迭代中，粒子通过跟踪两个“极值”(pbest，gbest)来更新自己。在找到这两个最优值后，粒子通过下面的公式来更新自己的速度和位置。
这里写图片描述
公式(1)的第一部分称为【记忆项】，表示上次速度大小和方向的影响；公式(1)的第二部分称为【自身认知项】，是从当前点指向粒子自身最好点的一个矢量，表示粒子的动作来源于自己经验的部分；公式(1)的第三部分称为【群体认知项】，是一个从当前点指向种群最好点的矢量，反映了粒子间的协同合作和知识共享。粒子就是通过自己的经验和同伴中最好的经验来决定下一步的运动。以上面两个公式为基础，形成了PSO的标准形式。
3、利用 PSO对SVM文本分类算法寻优的步骤如下Cs, of:
1)输入经过预处理的含有特征的训练文本样本;
2) PSO算法以及SVM的核函数参数初始化;
3)利用随机函数方法初始化种群的速度和粒子，以SVM算法所求得的准确率率作为粒子的适应度;
4)对PSO算法中的种群个体通过粒子更新，产生新的粒子，并计算新种群粒子的适应度值。
5)判断当前的粒子的个体极值是否为种群的全局最优解，是，就找到全局最优子集，若否，继续上一步的循环操作;
6)将优化后的核函数参数利用SVM文本分类器训练，并用文本测试集进行测试。PSO优化算法核函数参数优化

基于SVM 的文本分类

猜你喜欢