一次聚类引发的一系列问题（工作经验篇） - 代码天地

一次聚类引发的一系列问题（工作经验篇）

其他 2019-08-28 15:41:27 阅读次数: 0

在这次聚类功能的完成过程中，增长了一些工作经验：

一、中间结果应当存储：整个功能分成两段过程，第一部分是请求引擎，获取分词结果，第二部分是根据分词结果聚类。第一部分请求引擎的分词结果应当保存，不管是查问题还是继续调试均能起到很好的帮助，后面更是开辟了一个功能，直接使用分词结果文件进行聚类，不需要第一步，为了防止第一步完成后，第二步执行过程中程序出错，下次还需要执行第一步。

二、分批存储结果：由于数据量比较大，所以需要分批聚类，而每批聚类的结果应该分别存储到文件中，防止执行了一部分程序出错还需要从头执行。

三、忽略小的影响，保证整体的运行：在请求引擎的过程中有时可能某一批数据请求出错，然后整体都报错了，无法继续进行。而对于大量的数据来说，一小部分的数据丢失并没有太大影响。这部分应当把错误catch掉，继续运行。

四、参数化程序：由于聚类过程中间一些处理方案的选择会对聚类结果产生影响，不同的数据适合不同的方案，所以需要参数能动态选择方案，这个参数的解析应该独立在聚类过程之外，方便改动和阅读。

猜你喜欢

转载自www.cnblogs.com/fiftyonesteps/p/11424334.html

一次聚类引发的一系列问题（工作经验篇）

一次聚类引发的一系列问题（多线程篇-多线程慢于单线程）

记一次全站升级https引发的一系列问题

Java集合HashMap引发的一系列问题

记一次复杂SQL引起MySQL死锁导致的一系列问题

C++ 类 class的一系列问题

hadoop 等一系列问题

cmake的一系列问题

记录一次通过命令行方式来使用svn碰到的一系列问题

IE8无法进入debug模式而引发的一系列问题

剑指Offer--青蛙跳台阶引发的一系列问题

MyEclipse中由jdk版本引发的一系列问题汇总

mac下使用pip安装pycurl引发的一系列问题

由"Detected problems with API compatibility"引发的一系列问题

ubuntu18.04安装build-essential所引发的一系列问题的解决

前端显示等一系列问题

PCNTL_FORK 产生的一系列问题

ubuntu安装及使用——一系列问题

构造方法的一系列问题

Java多线程的一系列问题

安装TensorFlow中提示的一系列问题

尝试复现SSD，遇到的一系列问题

hadoop Native本地库的一系列问题！！！

GitHub搭建个人博客的一系列问题

一系列问题网址收藏集合

Python操作中文路径的一系列问题

ins的更新带来的一系列问题

mac 配置maven的一系列问题

pyspider安装中出现的一系列问题

torch遇到的一系列问题

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)