kotlin编写爬虫小小的总结

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/qq_32768743/article/details/89290832

大概用了kotlin写了几天爬虫,也遇到不少问题,现在稍微做一些记录。

  • 获取网页需要记得失败后重试
    开始的时候,用的jsoup获取网页。某一次把写好的代码,运行起来,跑了十几分钟,没有问题,突然挂了,最后发现是请求超时。
    然后加了失败后重试,最多3次,这个问题后面就再也没出现过。

  • 获取网页502
    有一次加快爬取速度,就开了500个线程,感觉良好。又一次开500个,发现全报502,最后是把线程数降到100个才好了点。

  • 网页的解析
    用了jsoup后,网页的获取和解析都归jsoup干了,只要把css选择器写好就行了。

  • 存入数据库
    数据库是一个瓶颈。之前爬取的时候,非常慢,又不是是什么原因,用了线程池也没解决问题。最后每一个操作打印耗时,发现插入一条SQL居然40秒。
    解决办法是拼接字符串,批量插入。

  • 瓶颈分析
    爬虫最开始运行非常慢,后面求助某大佬,速度飞起
    各阶段统计一下耗时,可以非常快的了解到是哪个地方慢了
    使用调试运行程序,而不是直接run,可以方便看变量什么的
    日志过滤,IDEA有一个grep插件,非常好用

猜你喜欢

转载自blog.csdn.net/qq_32768743/article/details/89290832