爬虫学习之14：多进程爬取简书社会热点数据保存到mongodb - 代码天地

爬虫学习之14：多进程爬取简书社会热点数据保存到mongodb

其他 2018-07-24 05:10:18 阅读次数: 0

本代码爬取简书社会热点栏目10000页的数据，使用多进程方式爬取，从简书网页可以看出，网页使用了异步加载，页码只能从response中推测出来，从而构造url，直接上代码：

import requests
from lxml import etree
import pymongo
from multiprocessing import Pool
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
}

client = pymongo.MongoClient('localhost',27017)
mydb = client['mydb']
jianshu = mydb['jianshu_2']
num = 0
def get_jianshu_info(url):
    global num
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="note-list"]/li')
    for info in infos:
        try:
            author = info.xpath('div/div/a[1]/text()')[0]
            title = info.xpath('div/a/text()')[0]
            abstract = info.xpath('div/p/text()')[0]
            comment = info.xpath('div/div/a[2]/text()')[1].strip()
            like = info.xpath('div/div/span/text()')[0].strip()
            data = {
                'author':author,
                'title':title,
                'abstract':abstract,
                'comment':comment,
                'like':like
            }
            jianshu.insert_one(data)
            num = num +1
            print("已爬取第{}条信息".format(str(num)))
        except IndexError:
            pass

if __name__=='__main__':
    urls = ['https://www.jianshu.com/c/20f7f4031550?utm_medium=index-collections&utm_source=desktop&page={}'.format(str(i)) for i in range(1,10000)]
    pool = Pool(processes=8)
    start_time = time.time()
    pool.map(get_jianshu_info,urls)
    end_time = time.time()
    print("八进程爬虫耗费时间：", end_time - start_time)

可以看到爬取的信息已经保存到了mongodb中：

猜你喜欢

转载自blog.csdn.net/cskywit/article/details/81041719

爬虫学习之14：多进程爬取简书社会热点数据保存到mongodb

爬虫学习之15：多进程爬取58二手交易市场数据保存到mongodb，并实现简单断点续爬

【爬虫】利用selenium爬取淘宝并保存到mongodb数据库

python 爬虫之爬取网站信息并保存到文件

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

Python爬虫之selenium爬取英雄联盟官网英雄全皮肤图片下载到本地和保存到MongoDB数据库

爬虫——使用多进程爬取视频数据

python爬虫系列之数据存储实战：爬取简书用户文章列表并保存

elasticsearch学习与把爬取的数据保存到es中

爬虫--多进程爬取妹子图

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

将scrapy爬取数据保存到mysql数据库和mongodb数据库

Python爬虫数据保存到MongoDB中

吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中

scrapy框架爬取图片保存到本地或mongodb的写法

多线程爬取都挺好链接并保存到mongodb

爬取京东商品信息并保存到MongoDB

Python爬虫学习6：scrapy入门（一）爬取汽车评论并保存到csv文件

学习笔记（爬虫）：爬取古诗网站，获取每一篇古诗，并保存到本地

Python爬虫实战：基于Scrapy的淘宝登陆后实现数据爬取并保存到Mysql

python爬虫爬取图片并保存到本地

python爬虫爬取图片保存到本地文件

爬虫实践小例子爬取书籍保存到本地

爬虫爬取《全职法师》并保存到本地

Python爬虫之路-爬取在线课程并保存到Excel

爬取图片实例python爬虫（保存到本地）

爬虫学习打卡6——将爬取数据放入MongoDB

python之scrapy爬取数据保存到mysql数据库

Python爬虫：全国大学招生信息（一）：爬取数据 (多进程、多线程、代理)

Python爬虫之路-多进程爬取在线课程并存入MySQL数据库

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)