一次聚类引发的一系列问题(工作经验篇)

在这次聚类功能的完成过程中,增长了一些工作经验:

一、中间结果应当存储:整个功能分成两段过程,第一部分是请求引擎,获取分词结果,第二部分是根据分词结果聚类。第一部分请求引擎的分词结果应当保存,不管是查问题还是继续调试均能起到很好的帮助,后面更是开辟了一个功能,直接使用分词结果文件进行聚类,不需要第一步,为了防止第一步完成后,第二步执行过程中程序出错,下次还需要执行第一步。

二、分批存储结果:由于数据量比较大,所以需要分批聚类,而每批聚类的结果应该分别存储到文件中,防止执行了一部分程序出错还需要从头执行。

三、忽略小的影响,保证整体的运行:在请求引擎的过程中有时可能某一批数据请求出错,然后整体都报错了,无法继续进行。而对于大量的数据来说,一小部分的数据丢失并没有太大影响。这部分应当把错误catch掉,继续运行。

四、参数化程序:由于聚类过程中间一些处理方案的选择会对聚类结果产生影响,不同的数据适合不同的方案,所以需要参数能动态选择方案,这个参数的解析应该独立在聚类过程之外,方便改动和阅读。

猜你喜欢

转载自www.cnblogs.com/fiftyonesteps/p/11424334.html