爬虫必备知识

来自:http://www.mamicode.com/info-detail-2399751.html
暂且把目标定位初级爬虫工程师,简单列一下吧:

(必要部分)

语言选择:一般是Python
熟悉多线程编程、网络编程、HTTP协议相关
开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
反爬相关,cookie、ip池、验证码等等
熟练使用分布式
(非必要,建议)

了解消息队列,如RabbitMQ、Kafka、Redis等
具有数据挖掘、自然语言处理、信息检索、机器学习经验
熟悉APP数据采集、中间人代理
大数据处理(Hive/MR/Spark/Storm)
数据库Mysql,redis,mongdb
熟悉Git操作、linux环境开发
读懂js代码,这个真的很重要

猜你喜欢

转载自blog.csdn.net/weixin_34268579/article/details/87071189