08_网络爬虫 - 代码天地

08_网络爬虫

编程语言 2018-07-29 10:15:02 阅读次数: 0

原理：httpRequest-->新闻服务器--DOM文档-->爬虫应用--DOM解析--数据库

网络爬虫之DOM解析：Document--Element--Elements

jsoup：html解析器;导入jsoup-1.6.3.jar

网络爬虫的步骤：

//1 网络请求请求URL

//2 得到DOM文档

Document document = Jsoup.connect("URL").get();

//3 解析DOM文档

//编写元素选择器类似于jQuery选择器

String selector="div[class=login]";//类选择器

//属性选择器：元素类型[attr=value]

//多级选择器：元素1类型[attr=value]>元素2类型[attr=value]

//ID选择器：#id

//选择元素

Elements elements = document.select(selector);

for(Element element : elements ){

System.out.println(element.text());

}

猜你喜欢

转载自blog.csdn.net/ftmy_c/article/details/81210602

08_网络爬虫

08_多态-python

08_动态sql

08_流

08_方法入门

08_变量的基本使用

08_基本的输入与输出

08_创建权重与偏置

08_映射与结构体

【面试】08_写个 Promise

08_页面元素的操作

08_栈地址生长方向

淘淘商城08_登录优化02

设计模式08_适配器

Java基础系列--08_集合1

08_实现用户邮箱激活

linux基础—课堂随笔08_进程

08_类型别名（类型声明）

Pandas库08_存取CSV文件

（数据库）08_多表查询

【AI】_08_时间序列分析

【CV】08_图像分割 (Segmentation)

【Qt学习笔记】08_布局管理

Java多线程08_线程池

数据库_08_子查询

08_建造者模式(方式二)

08_让koa支持文件上传

机器学习笔记（参考吴恩达机器学习视频笔记）08_神经网络的学习

python 基础网络爬虫 day08

08 【爬虫】

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)