爬虫工程师JD归纳 - 代码天地

爬虫工程师JD归纳

其他 2019-04-02 15:48:01 阅读次数: 0

字节跳动 python爬虫工程师 22-40k

负责：

设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作，实时监控爬虫的进度和警报反馈
网页信息和APP数据抽取、清洗、消重等工作

要求：

有扎实的算法和数据结构能力
熟悉爬虫原理，熟悉常见的反爬虫技术
掌握http协议，熟悉html、dom、xpath等常见的数据抽取技术
有大规模数据处理、数据挖掘、信息提取等经验者优先

小米数据爬虫工程师 20-40k

负责：

负责设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作
负责网页搜索的页面内容提取，搜索领域下的滤重（simhash/minhash）、聚类、反垃圾、页面分析、标签、分类器（贝叶斯/Bayes/LR/SVM）、数据挖掘等工作，提升平台的抓取效率
参与爬虫核心算法和策略优化，熟悉采集系统的调度策略
实时监控爬虫的进度和警报反馈

要求：

熟悉Linux系统，掌握Python等语言
掌握网页抓取原理及技术，了解基于Cookie的登录原理，熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
熟悉整个爬虫的设计及实现流程，有大规模网页信息抽取开发经验，熟悉各种反爬虫技术，有分布式爬虫架构经验
有链接分析（pagerank、trustrank）、特征提取（页面质量、权威度、topic、线性/非线性回归、LDA）等能力优先

扇贝爬虫工程师 8-16k

负责：

开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作 
负责网页信息和 App 数据抽取、消重等工作 
配合算法岗完成ETL 相关任务

要求：

掌握网页抓取原理及技术，了解基于 Cookie 的登录原理，熟悉基于正则表达式、XPath 等网页信息抽取技术 
熟悉常用开源爬虫框架，如 scrapy / pyspider 
扎实的编码能力与算法基础，熟悉 Linux 下的 Python / Shell 开发

猜你喜欢

转载自www.cnblogs.com/lokvahkoor/p/10642912.html

爬虫工程师JD归纳

硬件工程师JD

Java工程师招聘JD

爬虫工程师

Java 爬虫工程师

Java中级开发工程师知识点归纳

爬虫工程师的月薪如何？

爬虫工程师怎么学姿势！！！

爬虫工程师的进阶之路：

爬虫工程师常用的 Chrome 插件

微专业Python爬虫工程师

【区块链-智能合约工程师】第一篇：某科技jd解读

粤港澳大湾区国家技术中心 AI for Science工程师JD分析

python爬虫工程师成长之路一初识爬虫

爬虫工程师和网络安全工程师的爱恨情仇

别笑话爬虫工程师了，数仓库工程师也被警察传话了。

北京诺信创联-Python爬虫工程师

北京号外科技-Python爬虫工程师

普奥云-Python爬虫工程师

Python-爬虫工程师-面试题总结

智慧星光-Python爬虫工程师

上海金台灯-Python爬虫开发工程师

博派通达-Python爬虫开发工程师

前端工程师需要知道的反爬虫知识

关于如何成为一名爬虫工程师！

Java 如何成为一名爬虫工程师

Python 爬虫工程师必学 App数据抓取实战

Python工程师（爬虫方向）岗位职责解析

Python爬虫工程师必学 App数据抓取实战

专业的“python爬虫工程师”需要学习哪些知识？

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)