Data Engineer-Crawler

Data Engineer-Crawler(上海黄浦区)
Responsibilities

  • 负责垂直网站网页数据的爬取、清洗
  • 解决各种反爬取问题,保证爬取进度
  • 优化爬取效率,监控数据爬取进展
  • 研究网站安全的新技术等
  • 数据清洗,数据挖掘等相关研发工作

Requirements

  • 两年以上相关开发经验

  • 熟悉 Python 或 java 两门语言

  • 熟悉 scrapy、pyspider、webmagic、nutch 等任一爬虫框架

  • 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则、xpath、cssselector 的网页抽取技术

  • 熟悉反爬机制,能解决疑难爬取问题

  • 熟悉 Mysql,redis,mongdb,oracle 至少之二,有过数据库调优和海量数据存储经验优先

  • 有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先

  • 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先

  • 良好的英文沟通能力,英文文档写作能力

  • 优先考虑有在国际化团队工作经验的候选人

猜你喜欢

转载自blog.csdn.net/weixin_43946993/article/details/86637200