前提:
- 在设置如何下载附件文件之前呢,我们需要有可以下载的网址,例如后缀是.pdf的(https://st.gtfund.com//report/2018/12/国泰基金2018年3季度企业年金投资管理情况.pdf)
- 下载好火车头(我用的是8.6版本的)
操作说明:
有了网址之后,我们开始设置,如图
-
我们点击第二步采集内容规则
-
点击添加
-
新建一个标签名为
附件下载
(注:名字无所谓)的标签
-
开始设置,填好标签名,我们这里的网址头和附件链接组合在一块的就是一个完整的可以下载的URL
-
勾选探测文件并下载
-
设置文件保存目录
- 在设置的时候要注意转义
- 例如我们复制下来的路径是这样的:
C:\Users\huqx2\Desktop\采集的数据
- 我们先要将
\
都改成/
,如改成:C:/Users/huqx2/Desktop/采集的数据
- 之后在将需要转义的字母或者
/
,前面加上\
,如改成:C:/U\ser\s/\huqx2/De\sk\top/采集的数据/国泰基金
(注意:需要转义的字母火车头里有颜色标出)
-
设置文件保存格式(即:名称)