V9 help manual> Getting Started Introduction> Related Terms train collector related terms

1. Acquisition Task

采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块。

2. Acquisition Rules

即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,
这个设置可以从火车采集器里面导出保存为.ljobx文件,也可以再次导入火车采集器。

3. Publish module

在火车采集器中,发布模块是对“将已经采集到的数据发布到哪里”进行的设置。
包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.wpm文件和.dbm文件,
并可以再次导入火车采集器,多次使用。

4. publishing interface

发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求。
即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照用户特定需求灵活地处理数据。

5. Label

是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,
比如标题、手机号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过该标签名对应获取到,
格式为[标签:标签名]如[标签:标题]。
标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,
顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,
内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。

Note: There is a saying generally as html tags, labels herein refer to those properties which html code identifier, such as: <a href inside a label, the label is inside font html tags, the term processing content html label exclusions appear.

6.(*)

在使用火车采集器时经常会遇到这个符号,它是变量的通用符号,
如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。

7. [parameters]

用来匹配某项准备提取信息的标记标签,如想要在代码中提取组合出某种格式。
以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。
"mClk(this,'[参数]','[参数]', '[参数]','1'); ",按照次序,108484参数就是参数1,依次类推。
实际需要的地址为以下的地址格式:bbs/read.php?id=[参数1]& sort=[参数3]&action=[参数2],
上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,
次序不要颠倒。这样就组合成了新的地址格式。

8. Start URL

用来获取下级链接地址的入口网址,可以为一条或多条,
可以通过添加起始网址向导添加同格式多条网址或导入文本网址。
如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。

9. Multi-level URLs

依次根据列表里面的多级网址顺序采集分析地址,通过依次采集分析到最后一级得到内容页地址。
多级网址的获取可以使用页面自动分析和手动获取的方法采集下级网址,
在采集的过程中,可以同时采集列表分页及提取列表页附加参数。

10.Cookie

是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。
在浏览器中使用时通常还会以文本形式记录到您的IE缓存目录中,
以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。

11.User-Agent

浏览器标识,是用来向服务器通知您使用的客户端类型,
在某些需要登录的网页可能需要同时验证Cookie和User-Agent,
所以需要您将其设置为与本机浏览器同样的格式。

12. Page

列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,
这样的子页面就是分页(列表分页或内容分页)。

13. Multiple Pages

有些情况下,需要采集一个页面对应的网址,图片等内容时,
需要另外打开一个新的页面才能采集到这些信息,这些另外打开的页面则称为多页。

14. The web page coding

是在网页中指定其特定字符编码格式的库,例如一般在网页中都要有如下一句:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">,
这样的字句指示此网页的字符集编码是GB2312。
火车采集器对一般的网页可以做到自动识别,
也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定相应的编码格式。

15. Agent

是指网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,
访问一些单位或团体内部资源,突破电信的ip封锁和隐藏真实的ip等。

16. Plug

在火车采集器,插件是指可以对采集到的数据进行特定处理的一个外部程序,
编写好插件后,采集器可以把数据传递给插件,然后对数据进行处理,再把数据传给采集器。
(可自行开发,也可联系客服定制。)

17.Cron expression

在火车采集器计划任务管理器的设置中,可以设置完整的cron表达式来表示对任务的计划执行。
它是一个由6或7个子表达式组成的字符串。每一个表达式代表一个域,
每个域描述了一个单独的日程细节且每个域之间使用空格分隔,它由两种格式组成。

Hours Minutes Month DayofWeek dayOfMonth Seconds The fast-Year
Seconds The fast-Minutes Hours dayOfMonth Month DayofWeek
a Cron expression has six or seven spaces separated by at least a time element, each time using digital elements, but can also appear as special characters and their meanings are It represents:
1.Seconds seconds (0-59 special symbol is allowed, allowed, - * /)
2.Minutes min (0-59 special symbol is allowed, allowed, - * /)
3.Hours h (allowing value of 0-23, allows special symbols, - * /)
4.Day-of-month mid-day (allowable value of 1-31, allows special symbols, -? * / LWC)
5.Month month ( allowable value or 1-12 JAN-DEC, allowing special symbols, - * /)
day 6.Day-of-Week of Week (1-7 allowable value or SUN-SAT, allowing special symbols, - * ? / LC #)
7.Year (optional field,) in (optional field that allows the value of blank or 1970-2099, allowed special symbols - * /)
special character meaning:
(1) * indicates that the field any value. As in the Minutes field use , it means that every minute a trigger event.
(2)? And can only be used in DayofMonth DayofWeek two domains. In fact any value will not match the domain because DayofMonth and DayofWeek affect each other. If you want to trigger the scheduled 20th of each month, whether on the 20th of the week, you can only use the following wording:? 13,131,520 *, which can only be the last one, rather than using?
, If you use * of every month 20 15:13:13 either will trigger a few weeks, in fact it is not.
(3) - indicates a range, such as in 5-20 Minutes domain, represents 5 to 20 minutes once a minute trigger
(4) / start trigger indicating a start time, and a trigger every predetermined time. As used in Minutes domain 5/20, represents from 5 minutes to trigger a start every 20 minutes, once triggered results 25,45,05, respectively.
(5), which lists any enumeration values. As used in Minutes 5,20 domain, as 5 minutes and 20 minutes, occur once every minute.
(6) L represents the last, and only appeared in DayofMonth DayofWeek domain.
(7) W represents a valid working day (Monday to Friday), can only appear in DayofMonth domain, the system will trigger events in recent days from the effective date specified. In addition, W recently looking for does not cross the month.
(8) # is used to determine the first few days of the week each month, only appear in DayofMonth domain. The 4 # 2 for the second Thursday of the month.
Complete corn expressions such as 0 15 08? * MON-FRI represent every Monday to Friday morning 8:15 start regularly updated data.

18. The task URL library

采集器在文件夹DataLocoySpiderPageUrl下,
该站点下的每一个任务都会生成一个独立或公用的网址库用来对比网址重复之用。

19.HTTP request

浏览器打开网页时实际就是发送一个又一个Http请求,
火车采集器也一样,从指定的地址获取内容的过程就是发送Http请求,然后对根据请求得到的内容进行处理。
当浏览器向web服务器发送请求时,它向服务器传递了一个数据块,也就是请求信息。
Http请求信息由3部分组成:请求方法URI协议/版本,请求头(Request Header)和请求正文。
如下图:

而客户就可以从请求的信息中得到有用的数据。

Guess you like

Origin www.cnblogs.com/shujucaiji/p/12052359.html