一般人谈到去重文本,都可以在网上下载到简单去重软件,但是去重的文本太多基本很慢,原因就是普通软件都是基于文本处理开发的软件,一般需要循环、分割文本处理,速度基本叫人抓狂。为了解决数据去重的问题,FIRC团队,专门研究文本去重技术,开发一个真正的高速去重的软件,33万数据,经过实践证明,去重步骤,只需要1秒左右即可完成,软件采用基于数据库方式,由于需要装填数据库,所以需要去重过程大致相同时间,330579条数据(每条数据长度约为40字符长度)测试结果如下
数据预加处理 | 数据装填 | 数据去重 | 后期处理 |
约2秒 | 约1秒 | 约1秒 | 约2秒 |