如何学习爬虫技术（问答版）

写了一篇偏道的入门文章，涛哥说，不太入门，思来想去，应该是我陷入了知识诅咒（所谓知识诅咒是指，一旦人了解了某种知识，就很难站在没掌握这个知识的角度，去思考和理解他人）。

为求简单直接，这里直接以问答的形式，将大家问的最多的一些问题，直接以文字形式回答，以大家疑惑为主去讨论如何学习爬虫技术。

那我们开始吧！

如何接爬虫单？怎么谈？收钱比例怎么分配？

这里，我从单源、谈法、分成习惯3个方面来谈。

我们爬虫课程给出了2条路径供大家收回报课学习的成本，即那2000多元，一条路是我们的课程最终目标，找到更高薪资的爬虫岗位，拿到15k的月薪，另一条路就是我们的爬虫单渠道。

目前很多机构为了宣传爬虫课，会大肆宣传，接单如何赚钱，但遗憾的是，如果没有需求方，再多供给方也没啥用，机构不会告诉你，去哪里接？怎么接？

而我们的课程，因为涛哥本身做了很多副业相关的生意，需求比较旺盛，已经在学员群里的同学应该会有感觉，这些单有几百元的，几千元的，也是过万元的，从难度上看，我们课程提供的知识点、解决方案，基本可用覆盖千元基本的单子，而万元确实困难一些。

我们不夸大，想要像机构宣传的那样，通过接单月入5w，概率很小，需求方老板也聪明，如果要开高价，才能解决，他会偏向于找一个1~2w月薪的人，直接帮他打工，更加可控。

回到“单源”这个话题上，你可以将涛哥看成一个渠道，或一些其他的接单平台，但实话说，我没在接单平台上接过单，主要有2个原因。

原因1：信任度问题，平台上的人，不知背景，不知为人，合作起来，麻烦一些
原因2：我自己周围其实有很多项目需求

这里引出“单源”上，我第二个观点，当你一开始没有渠道时，可以多找涛哥聊，从而接单，解决完后，可以合理的发一下朋友圈，给自己做好曝光，描述一下你为需求方解决了什么问题，做好曝光的目的其实就是告诉大家，你做这个东西，有类似的需求可以找我。

然后，说到“谈法”，关于爬虫类的需求，我总结出了谈法三板斧。

录操作视频
弄操作文档
框需要数据

对于非技术的客户，直接上三板斧，比单纯的文字或电话沟通快速很多，看完对方视频、文档，理解了其想要数据后，再电话沟通，说出自己的理解，让对方判断一下，是不是要获取自己理解的这些数据。

如果是技术客户，很多老板，其实有程序员团队的，但因为爬虫技术与传统开发技能有一点差异性，所以，这些老板可能会找一些外包要思路或代码，对于这种客户，最好跟他们负责这个的程序员同学聊，问一下，卡点（技术难点）从而判断是否可以做。

我最近接的一些单，都是技术客户的，很多聊到最后，发现不是爬虫需求，而是怎么解决风控的问题，这个，收费就不一样了。

最后，谈一下“分成”，这里，其实没有什么江湖规矩，我个人习惯是将项目收入的2成分给渠道方，比如，我的单是从涛哥那里来的，1w元，我就分涛哥2000元，目的也很明确，以后有合适的单，优先找我。

多数人的做法可能是，结束后，发个200元的红包，这个没有对错，只是，我愿意分2000，你愿意分200，后面，渠道方倾向于找谁，就很清晰的。

嗯，熟悉我的朋友应该都知道，我一直强调合作共赢，格局要大。

爬虫接单的风险规避

如果我们问不同的人，答案会完全不同。

如果你问从业网络安全法相关的律师朋友，他会直接了当的告诉你，不要碰，有法律风险。

但你问行业前辈，他会跟你聊抓你的成本，得出一般不会抓的结论。

这里的困境就类似于科学上网，有法律风险，但你通常还是上，你不上，看不到比较新的技术文档、看不到外国同行的讨论。

所谓水至清则无鱼，自己要琢磨好其中影藏的线。

我个人的经验是这样的：

1.看量

量很大，比如需求里，有“全站”、“全竞品”、“全国”之类大范围的词，建议问一下律师，听从律师的建议。

如果量不是很大的单次交易，问题不会很大。

2.不要破坏商业公司的商业目的

很多人做爬虫业务，虽然量级很小，但却是与对方商业目的背驰的，比如，从这个平台上偷用户、偷流量，这种就有比较大的风险。

3.做好风险隔离

很多同学喜欢用自己的IP进行大批量的请求，这会让你的IP在对方的风控系统中留下痕迹。进一步说，很多人，习惯在正常爬取数据前，先用自己的IP做好流程、做好实验，然后再上代理，这种其实也会留下痕迹，但相比之下，第一种明显很多。

当然，我们没必要如惊弓之鸟，大公司的风控系统是复杂的，数据也是海量的，他们也需要考虑成本问题，如果量不是很大，很多时候人家也不会特意去查。

另外一种比较好的风险规避方式就是多关注海外的爬虫需求，这也是我正在做的，比如爬区块链数据、爬海外电商数据等。

爬虫课程要学多久？学到什么程度才能接单？

这种看似简单的问题，其实很难回答，因为问题本身没有抓手。

无论是学多久还是学到什么程度才能接单？都很看你的背景和基础知识。

这里，我将其换成，爬虫课中最核心的20%内容，掌握后可以接80%单的角度来回答这个问题。

我们爬虫课中，最核心20%的内容就是：JavaScript混淆和爬虫架构设计。

如果单从接单角度来讲，主要关注JavaScript混淆相关的内容就可以了，这块主要包括：

1.JavaScript混淆
2.JS Hook
3.扣代码+环境模拟

掌握这几个，可以解决目前涛哥给出的千元单中80%的问题。

要学会这些有多久？有基础的同学2~3就足够了，甚至你都不用看视频课程，直接看对应的文字版教程就好了，里面提供了各种代码级别的解决方案，你直接复制粘贴，便可用起来。

爬虫技术学习过程中的难度是什么？

相比于传统的开发技术，如前端开发、后端开发，爬虫技术的一大特点在于不确定性。

不确定性不是表现在爬虫的基础技术上的，而是表现在你要将其用于具体工作时，面对具体的网站时，网站使用的反爬通常不会完全跟你课程中学习的一样，而是各种变种。

我们的爬虫课程中，其实已经总结了网页端常见的反爬手段了，很多网站，会多个手段一起使用，但通常也不会完全相同，比如混淆JS的方案不是课程里给出的方案。

很多习惯正向开发的同学，对确定性的依赖很强，正向开发，遇到问题，Google一下，然后复制粘贴，通常能解决，而爬虫问题，你连搜索都不知道使用什么关键字，如果运气好，搜索到了目标网站的解决方案，大概率也失效了。

但实际上，网站用的反爬都是你见过的知识点，你要做的是融汇贯通一点。

此外，还有一些要注意的点：

1.很多网站，可以通过JS Hook定位关键代码，然后将这些代码扣下来，通过补环境的方案来解决，此时，我们就不要过度陷入细节了。很多技术同学喜欢挑战难的，喜欢自嗨，这没问题，在精进的路上是必要的，但在做具体的业务时，建议先将最核心的需求解决了再说，具体而言，先拿到数据再说。

2.不要过度依赖自动化技术，很多同学学到最后，就掌握了自动化技术，过度依赖这种解决方案会让你比较受限，很多有速度要求的项目便很难满足。我个人其实不排斥自动化方案，但我主要将它拥有获取cookies、token等登陆信息的操作上，而具体获取数据的操作，主要还是通过API获取。

结尾

以上就是比较常见的问题了。

如果你还有一些疑惑，可以留言给我，我们一起探讨进步。