爬虫工程师JD归纳

字节跳动 python爬虫工程师 22-40k

负责:

  • 设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作,实时监控爬虫的进度和警报反馈
  • 网页信息和APP数据抽取、清洗、消重等工作

要求:

  • 有扎实的算法和数据结构能力
  • 熟悉爬虫原理,熟悉常见的反爬虫技术
  • 掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术
  • 有大规模数据处理、数据挖掘、信息提取等经验者优先

小米 数据爬虫工程师 20-40k

负责:

  • 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
  • 负责网页搜索的页面内容提取,搜索领域下的滤重(simhash/minhash)、聚类、反垃圾、页面分析、标签、分类器(贝叶斯/Bayes/LR/SVM)、数据挖掘等工作,提升平台的抓取效率
  • 参与爬虫核心算法和策略优化,熟悉采集系统的调度策略
  • 实时监控爬虫的进度和警报反馈

要求:

  • 熟悉Linux系统,掌握Python等语言
  • 掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
  • 熟悉整个爬虫的设计及实现流程,有大规模网页信息抽取开发经验,熟悉各种反爬虫技术,有分布式爬虫架构经验
  • 有链接分析(pagerank、trustrank)、特征提取(页面质量、权威度、topic、线性/非线性回归、LDA)等能力优先

扇贝 爬虫工程师 8-16k

负责:

  • 开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作

  • 负责网页信息和 App 数据抽取、消重等工作

  • 配合算法岗完成ETL 相关任务

要求:

  • 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术

  • 熟悉常用开源爬虫框架,如 scrapy / pyspider

  • 扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发

猜你喜欢

转载自www.cnblogs.com/lokvahkoor/p/10642912.html
今日推荐