爬虫 python 爬取澎湃新闻 - 代码天地

爬虫 python 爬取澎湃新闻

编程语言 2020-02-13 17:02:01 阅读次数: 0

import requests
import pymongo
from bs4 import BeautifulSoup
import getNews

client = pymongo.MongoClient(host='localhost',port=27017,connect=False)
pengpai = client['pengpai']
if 'pengpai_news' in pengpai.list_collection_names():
    pengpai_news = pengpai['pengpai_news']
    pengpai_news.drop()
else:
    pengpai_news = pengpai['pengpai_news']
#抗疫情 链接构建
urlList = ['https://www.thepaper.cn/channel_90077']
url_1 = 'https://www.thepaper.cn/'
url_2 = 'load_index.jsp?nodeids=90069,&channelID=90077&topCids=,5922202,5934344,5934605,5934601,5934698&pageidx='
url_3 = '&lastTime=1581492637041'
for i in [url_1 + url_2 + str(n) + url_3 for n in range(1,30)]:
    urlList.append(i)

num = 0
for url in urlList:
    news_data = requests.get(url)
    news_data.encoding = "utf-8"
    soup=BeautifulSoup(news_data.text,'lxml')
    news_item = soup.select('.news_li')
    #print(news_item)
    for new in news_item:
        if len(new.select('h2')) != 0:
            title = new.select('h2')[0].text.strip()
            text_href = "https://www.thepaper.cn/" + new.select('a')[0]['href']
            pic_src ="https://www.thepaper.cn/" +  new.select('img')[0]['src']
            num += 1
            try:
                news_info = getNews.getNewsTxt(text_href)
            except:
               print("bug")
            data = {
                'title': title,
                'title_link': text_href,
                'pic_link': pic_src,
                'news_info':news_info
            }
            print("第%d插入成功"%(num),data)
            pengpai_news.insert_one(data)

Cep�Murphy laws

发布了6 篇原创文章 · 获赞 1 · 访问量 340

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44600471/article/details/104298187

爬虫 python 爬取澎湃新闻

python爬虫——爬取汽车之家新闻

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

python爬虫之爬取腾讯新闻

python爬虫【二】爬取新闻

python爬虫实战——爬取腾讯新闻！

python爬虫：爬取新浪新闻数据

Python爬虫 | 爬取环境新闻实战

Python小白的爬虫代码——澎湃新闻列表

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

python爬虫实战（2）——爬取腾讯新闻

[Python爬虫]Scrapy框架爬取网易国内新闻

python实战之网络爬虫（爬取新闻内文信息）

爬取汽车之家新闻图片的python爬虫代码

Python爬虫实战教程：爬取网易新闻

python 爬虫爬取中国新闻网

python 爬虫爬取网易新闻网易排行榜

Python爬虫系列（四）：爬取腾讯新闻&知乎

【Python实现网络爬虫】Scrapy爬取网易新闻

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

Python爬虫——新闻热点爬取中国新闻网,今日头条，

Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧

爬虫应用：爬取新闻

python凤凰新闻数据分析（一）python爬虫数据爬取

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

python3 爬虫实战之爬取网易新闻APP端

python_爬虫_爬取7*24小时财经新闻

python3 爬虫之爬取网易新闻APP端

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)