初步了解python爬虫（摘录） - 代码天地

初步了解python爬虫（摘录）

其他 2018-09-27 08:29:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_40179546/article/details/82666932

1.html:超文本标记语言 <!DOCTYPE html>

2.<meta charset="UTF-8">申明字符类型

3.需关注html css

4.div <class_ id >

5.树形关系：先辈、父、子、兄弟、后代

6.xpath:从文档中定位元素

   可将其理解为语言
   ‘/’从根节点进行选取
   ‘//’从匹配选择的当前结点来对文档的结点进行选择
   ‘.’选取当前结点
   ‘..’选择当前节点的父节点
   ‘@’选择属性

/html
body/div 选择属于body 的子元素中的所有div元素

//div 选取所有div标签的子元素，而不管他们在html文档中的位置

@lang 选取名称为lang的所有属性

2通配符：

* 匹配任何元素结点
@* 匹配任何属性结点

//* 选择文档当中的所有元素

//title[@*] 选取带有属性的title元素

| 路径表达式中，| 代表的是和的关系

//body/div | //table/li 选取body元素的所有div元素和 li元素

//div | //li 选取所有div和li元素

3.beautifulsoup
什么是beautifulsoup ？
是一个可以从html或者是xml文件中提取数据的一个python 库

pip install beautifulsoup4

使用：from bs4 import BeautifulSoup

html_doc = " "
html_file = open(html_doc,"r",encoding ="gbk")
html_handle = html_file.read()
html_handle.encode(encoding = "utf-8")
soup = BeautifulSoup(html_handle,'html.parser')
print(soup)

print(soup.head)
print(soup.p) #这样只可以获取第一个p标签

#获取结点中的属性
print(soup.p.attrs) #获取p标签中的属性

#获取所有的p标签
ps=soup.fing_all("p")
print(ps)

#用属性进行定位
#一般用id 进行定位相对而言比较简单
result = soup.find_all(id = "")
print(result)

#按照css进行搜索
jobs = soup.find_all("td",class_="jobs')

#用正则表达式提取数据

import re

#解析：
re:是正则表达式库，.表示所有数据，{2,5}表示字节数，str表示将数据
转换为字符串格式,因为findall只接受字符串类型
r = re.findall(">(.{2,5})</a>".str(names))
print(r)

4.scrapy框架
pip install scrapy
#如果遇到错误，则运行下面两条语句，因为scrpy框架是基于下面两个库
pip install --upgrade incremental
pip install Twisted

总结，个人感觉用beautifulsoup加正则表达式爬取一些简单的网页便够用了！

猜你喜欢

转载自blog.csdn.net/qq_40179546/article/details/82666932

初步了解python爬虫（摘录）

python爬虫番外篇（一）进程，线程的初步了解

python之爬虫--番外篇（一）进程，线程的初步了解

初步了解爬虫框架pyspider

Python初步了解

Python 的初步了解

Python.0001.初步了解

python爬虫-requests初步学习

python爬虫-入门-了解爬虫

python爬虫基础了解

了解python爬虫框架

python爬虫的简单了解

孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块

Python以及我对Python的初步了解

0724py:urllib.request模块爬虫初步了解

解决pycharm的爬虫乱码问题（初步了解各种编码格式）

Python-Django-JWT的初步了解

python生成器初步了解

2018 python-初步接触爬虫

Python爬虫之selenium初步使用

python3 爬虫的初步应用

分分钟了解Python爬虫

简单了解Python网络爬虫

Python爬虫入门之爬虫基础了解

Python爬虫入门：爬虫基础了解

爬虫初步

Python访问数据库（及ORM初步了解）

初步了解生物医疗AI常用的Python包

十、python基础：初步了解函数（适合小白同学）

python算法----递归算法和初步了解栈的概念

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)