用beautifulsoup，re，xpath爬取文章并保存为csv文件 - 代码天地

用beautifulsoup，re，xpath爬取文章并保存为csv文件

其他 2019-05-07 12:52:04 阅读次数: 0

话不多说，直接上代码，

import csv, requests, re
from bs4 import BeautifulSoup
from lxml import etree

url = 'https://www.v2ex.com/?tab=all'
'''
#soup加正则
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
articles = []
for article in soup.find_all(class_='cell item'):
    title = article.find(class_='item_title').get_text()
    category = article.find(class_='node').get_text()
    author = re.findall(r'(?<=<a href="/member/).+(?="><img)', str(article))[0]
    #print(author)
    u = article.select('.item_title > a')
    #print(u)
    link = 'https://www.v2ex.com' + re.findall(r'(?<=href=").+(?=")', str(u))[0]
    articles.append([title, category, author, link])
print(articles)
'''

#xpath 写
response=requests.get(url).text
html=etree.HTML(response)
#print(html)

tag_div=html.xpath('//div[@class="box"]/div[@class="cell item"]')
#print(tag_div)

articles=[]
for each in tag_div:
    title=each.xpath('./table//tr/td[3]/span[1]/a/text()')[0]
    href=each.xpath('./table//tr/td[3]/span[1]/a/@href')
    #print(href)
    urlhref=[url+ i for i in href]
    #print(urlhref)
    category=each.xpath('./table//tr/td[3]/span[2]/a/text()')[0]
    #print(category)
    author=each.xpath('./table//tr/td[3]/span[2]/strong[1]//text()')[0]
    #print(title,author,category,''.join(urlhref))
    articles.append([title,author,category,''.join(urlhref)])
print(articles)

with open('v2ex3.csv', 'w') as f:
    writer = csv.writer(f)
    writer.writerow(['文章标题', '分类', '作者', '文章地址'])
    for row in articles:
        writer.writerow(row)

猜你喜欢

转载自blog.csdn.net/hellenlee22/article/details/89856812

用beautifulsoup，re，xpath爬取文章并保存为csv文件

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

python爬取多个网页表格并保存为csv

Vue组件-爬取页面表格中的数据并保存为csv文件

python爬取中国天气网天气并保存为csv格式文件

爬取某网站景区列表并保存为csv文件

python爬取安居客地图页信息，并保存为csv文件

爬取某网站所有的乌云漏洞公共文章，并保存为pdf文件

爬取某网站的所有乌云漏洞文章，保存为pdf文件

Python爬取全国最新房价信息保存为CSV文件,进行简单的数据分析

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

将矩阵保存为csv文件

python scrapy爬取腾讯招聘网站保存为csv文件，而且设定其表头顺序(csv默认是无序的)

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

【Python爬虫】xpath爬取+保存至csv/xlsx文件

python入门访问网站并将爬回来的数据保存为csv文件

python爬36选7并保存为.csv

python用akshare批量爬取金融数据并保存为excel格式

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

python--爬取豆瓣热门国产电视剧保存为文件

python中Scrapy实战之爬取网页并保存为json文件

python爬取中国天气网天气并保存为word格式文件

爬取表格类网站数据并保存为excel文件

Scrapy爬虫框架学习（三）分页爬取并保存为json文件

node爬虫：爬取csdn博客并保存为 markdown 文件

用逗号隔开简单数据保存为csv

Scrapy用pipelines把字典保存为csv格式

拉勾爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

前程无忧爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

Python 爬取数电教案并保存为pdf

今日推荐

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

android 文件上传（模拟表单提交）

node中遇到的一些问题

zhuanzai

树莓派3B板载蓝牙与HC05蓝牙模块配对(shell命令实现)

configparser模块简介 configparser模块简介

度度熊的01世界

浅谈log4j-6-xml配置转自godtrue

Kali无线渗透获取宿舍WiFi密码（WPA）

在VMware虚拟机中安装ubuntu

如何用微信公众号二维码事件做扫码登陆

每日归档

更多

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)