kotlin编写爬虫小小的总结 - 代码天地

kotlin编写爬虫小小的总结

其他 2019-04-14 21:21:11 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明出处。 https://blog.csdn.net/qq_32768743/article/details/89290832

大概用了kotlin写了几天爬虫，也遇到不少问题，现在稍微做一些记录。

获取网页需要记得失败后重试
开始的时候，用的jsoup获取网页。某一次把写好的代码，运行起来，跑了十几分钟，没有问题，突然挂了，最后发现是请求超时。
然后加了失败后重试，最多3次，这个问题后面就再也没出现过。
获取网页502
有一次加快爬取速度，就开了500个线程，感觉良好。又一次开500个，发现全报502，最后是把线程数降到100个才好了点。
网页的解析
用了jsoup后，网页的获取和解析都归jsoup干了，只要把css选择器写好就行了。
存入数据库
数据库是一个瓶颈。之前爬取的时候，非常慢，又不是是什么原因，用了线程池也没解决问题。最后每一个操作打印耗时，发现插入一条SQL居然40秒。
解决办法是拼接字符串，批量插入。
瓶颈分析
爬虫最开始运行非常慢，后面求助某大佬，速度飞起
各阶段统计一下耗时，可以非常快的了解到是哪个地方慢了
使用调试运行程序，而不是直接run，可以方便看变量什么的
日志过滤，IDEA有一个grep插件，非常好用

猜你喜欢

转载自blog.csdn.net/qq_32768743/article/details/89290832

kotlin编写爬虫小小的总结

python 小小的分布式爬虫

AIDL 进程间通信的一个小小的总结

2018小小的总结及19年的几个目标

小小的总结一下2018年

【ZJOI2007】捉迷藏小小的总结

小小的心路

小小的心得感悟

小小的demo

小小的压力测试

小小的js

小小的坚持

小小的疑惑

vector小小的缺陷

《在线》小小的感悟

小小的学习计划

小小的目标

基于Node.js实现一个小小的爬虫

小小的网络各层纪要

小小的学习FPGA建议

小小的程序监控脚本

小小的经验（持续更新）

小小的理发店

小小的贪吃蛇

小小的总结一下CSS的一点基础知识

一点总结和一点小小的广告

第一篇博客，小小的总结，顺便立个小的flag

Http协议（自己的一些小小的总结，方便日后学习揣摩）

2020年即将过去了，做一个小小的总结吧

小小的欣慰一下

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)