Java部分(以后将代码整理出来,再发)
1、java爬虫CSDN
步骤:
(1)首先编写properties配置文件,编写相关的爬虫地址和生成文件的数量
(2)编写相关的工具类,分别有文件名处理类、读取配置文件类、POI生成Excel文件类、
爬虫数据封装类
(3)编写主要服务类,在服务类中依次进行遍历地址的每一页数据,采用静态的LIST来保存数据,这样不需要爬虫每一页数据时就要new一个新的list,达到多页数据生成一个excel文件
最后就是将爬虫数据取出来,通过POI技术生成对应的Excel文件。
后期改善:
(1)初期程序每次只能读取一个爬虫地址,之后改善成能够运行一次,爬取多个地址。
主要通过采用数组来依次保存配置文件中的爬虫地址,在程序运行时,取出数组中的地址。
采用的技术:
(1)Jsoup框架
(2)IO
(3)POI框架
项目名称:demo-jsoup-rep
2、服务费外挂程序(swing编程)
步骤:
(1)将已开票的数据转移到本地数据库表中。
(2)分别查询已开票和没开票的数据,通过代码选择查询不同的数据表
(3)对查询的数据进行生成Excel文件
(4)配置文件主要编写内部各种查询规则和过滤规则和生成文件规则等。
(5)对已经开票的数据,采取发送NC系统中,采用XML文件发送
(6)工具类编写
(7)统一输出结果交互工厂类
后期改善:
代码重构,尽量把可以结合的部门进行合并,并对类似结构进行提取,做成公共可用模块。
采用的技术:
(1)POI框架
(2)commons.dbutils夹包用于数据库批量处理。
(3)IO
(4)url夹包,发送数据到接口地址。
(5)dom4j XML API
(6)ucanaccess相关夹包,连接读取MDB文件
3、网络小工具合集系统(正在开发中)
4、各种小类型
(1)反射测试相关
(2)java调用PYTHON程序
(3)测试连接航天发票打印接口。
(4)web socket
python部分(以后将代码整理出来,再发)
1、学习基础语法
2、python原生爬虫(微博)
3、python scrapy爬虫(小案例)