1.网上得数据下载到本地,利于快速分析 具体操作:java多线程 httputil
2.提取出关键信息进行分析 ,一般是key value键值对
分析数量 key value的状况 key value尽量不带html的东西
3.建立第二部中提取的key值与开发系统设计的key值关系规则
4.导入数据库,建立持续自动更新机制,跟系统集成的话就quartz等 或者直接linux的cron
根据上述key point 建立起对应的框架,分配任务,提供接口 写核心代码 迭代进行
上一篇blog就是在这个过程中写的一个工具类,快速的下载html
收集行业数据处理的一些总结
猜你喜欢
转载自blognojava.iteye.com/blog/1810854
今日推荐
周排行