使用beautifulsoup爬取丁香网评论

其他 2019-03-05 23:14:07 阅读次数: 0

beautiful soup介绍

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

1.Tag 就是html中的一个个标签

tag有两个重要的属性，name和attrs

2.NavigableString 就是指内容

#打印出标签p中的内容
print （soup.p.string）

3.BeautifulSoup 表示的是一个文档的内容

⼤部分时候,可以把它当作Tag 对象，是⼀个特殊的 Tag

4.Comment 特殊的NavigableString对象

#! /usr/bin/env python
# -*- coding: utf-8 -*-
# __author__ = "wxwinder"
# __email__ = "[email protected]"
# __website__ = "www.cnblogs.com/bravexz"


import requests
from bs4 import BeautifulSoup

url='http://www.dxy.cn/bbs/thread/626626#626626'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}
req= requests.get(url, headers=headers)

html=req.text
soup=BeautifulSoup(html, 'html.parser')

line=[]
name=[]
data=[]
new_data=[]
#建立列表存储数据
for i in soup.find_all('div', class_="auth"):  # 名字
    name.append(i.text)
for i in soup.find_all('td', class_="postbody"):  # 名字
    line.append(i.text)
#页面头文件分析，得出结果
for i in range(0,4):
    data.append(name[i]+"&&&&&"+line[i])
for i in data:
    x=i.replace("\n","").replace("\t","").replace(" ","")
    new_data.append(x)
#数据清理得出结果，具体实现如下
print(new_data)

参考：https://blog.csdn.net/tichimi3375/article/details/82313728

https://blog.csdn.net/HHXUN/article/details/79059554

扫描二维码关注公众号，回复： 5429446 查看本文章

猜你喜欢

转载自blog.csdn.net/mengxj168/article/details/88094551

使用beautifulsoup爬取丁香网评论

使用xpath方法爬取丁香网的评论消息

使用Python的BeautifulSoup爬取赶集网

爬取孔夫子旧书网的评论

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

使用BeautifulSoup去爬取豆瓣图片

爬取简书图片(使用BeautifulSoup)

Python使用BeautifulSoup爬取网页信息

使用beautifulSoup库爬取小说

PubMed（丁香）英汉词典爬取

爬取丁香论坛指定回复

爬虫实战利用BeautifulSoup爬取天气网存储postgresql

Python爬取豆瓣网图书评论

No.7 网抑云音乐评论爬取

爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup

利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)

利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(一)

使用BeautifulSoup爬取外汇数据及用法整理

使用BeautifulSoup爬取百度图片

python使用requests和BeautifulSoup爬取网页乱码问题

使用requests+BeautifulSoup爬取龙族V小说

使用Requests和BeautifulSoup爬取妹子图

Python使用BeautifulSoup与Requests爬取大学排名

python使用beautifulsoup4爬取酷狗音乐

使用BeautifulSoup爬取图片入门篇

Python使用BeautifulSoup与selenium爬取Boos直聘

使用BeautifulSoup爬取无锡美团美食店铺数据

python 使用BeautifulSoup爬取CSDN博客(1)

如何使用 Python 和 BeautifulSoup 爬取网站

BeautifulSoup爬取数据演示

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)