Python之路__爬虫篇:新浪新闻爬取回顾（二） - 代码天地

Python之路__爬虫篇:新浪新闻爬取回顾（二）

其他 2018-07-26 16:12:32 阅读次数: 0

接着上面章节根据新闻的URL 拿到新闻内详情

#2- 获取新闻内详情  入参: http://news.sina.com.cn/c/nd/2018-01-12/doc-ifyqqciz6031881.shtml
def getNewsDetail(newsURL):

    newsModel = {}

    reContent = requests.get(newsURL)
    reContent.encoding = 'utf-8'

    soupContent = BeautifulSoup(reContent.text, 'html.parser')

    # 获取newsURL
    print(newsURL)

    # 新闻ID
    match = re.search('doc-i(.*?).shtml', newsURL)
    newsID = match.group(1)
    print(newsID)

    # 新闻标题
    title = soupContent.select('.main-title')[0].text
    print(title)

    # 获取时间
    time = soupContent.select('.date-source span')[0].text
    print(time)

    # 获取来源
    source = ''
    if len(soupContent.select('.date-source a')) > 0:
        source = soupContent.select('.date-source a')[0].text
        print(source)
    elif len(soupContent.select('.source')) > 0:
        source = soupContent.select('.source')[0].text
        print(source)
    else:
        print('当前未检测到来源', newsURL)


    #获取内容
    article = ''.join([article.text.strip() for article in soupContent.select('.article p')])
    # for article in soupContent.select('.article p'):
    #     print(article.text)
    print(article)

    #获取编辑/作者
    show_author = soupContent.select('.show_author')[0].text
    print(show_author)

    newsModel['newsID'] = newsID
    newsModel['newsHref'] = newsURL
    newsModel['title'] = title
    newsModel['time'] = time
    newsModel['source'] = source
    newsModel['article'] = article
    newsModel['show_author'] = show_author

    return newsModel

猜你喜欢

转载自blog.csdn.net/idlehand/article/details/79069621

Python之路__爬虫篇:新浪新闻爬取回顾（二）

Python之路__爬虫篇:新浪新闻爬取回顾（四）

Python之路__爬虫篇:新浪新闻爬取回顾（三）

Python之路__爬虫篇:新浪新闻爬取回顾（一）

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

python爬虫：爬取新浪新闻数据

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

python爬取新浪新闻

python实现新浪新闻爬虫

爬虫：新浪详情新闻爬取总结

python爬虫【二】爬取新闻

python 爬取网页新浪新闻

python：爬取新浪新闻的内容

python爬虫爬取新浪新闻的评论数以及部分评论

Python 新浪实时新闻爬虫

python针对新浪新闻国内新闻爬取的爬虫，存入mysql数据库，也可输出为txt文件

爬取新浪新闻

Python抓取新浪新闻数据（二）

【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅

python之路 -- 爬虫二篇 -- 常用模块

python-----爬新浪新闻标题链接

Python利用xpath和正则re爬取新浪新闻

Python3爬去新浪新闻写入mysql

python3+urllib撸新浪滚动新闻爬虫

python爬虫——爬取汽车之家新闻

python爬虫之爬取腾讯新闻

python爬虫实战——爬取腾讯新闻！

爬虫 python 爬取澎湃新闻

Python爬虫 | 爬取环境新闻实战

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)