使用Newspaper框架抓取新闻 - 代码天地

使用Newspaper框架抓取新闻

其他 2019-02-20 00:01:00 阅读次数: 0

Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架，适合抓取新闻网页。

推荐安装Python3版本：pip3 install newspaper3k （pip install newspaper是Python2版本）

基本使用方法

url = 'https://www.washingtonpost.com/powerpost/trump-to-make-new-offer-to-democrats-as-government-shutdown-drags-on/2019/01/19/2cde029e-1bf3-11e9-9ebf-c5fed1b7a081_story.html?utm_term=.4db5c2055c6d'

# 创建文章对象
article = Article(url)

# 下载网页
article.download()

# 打印html文档
print(article.html)

# 网页解析
article.parse()

# 标题
print(article.title)

# # 作者
print(article.authors)

# 发布日期
print(article.publish_date)

# 正文
print(article.text)

# 配图
print(article.top_image)

# 视频
print(article.movies)


# 自然语言处理
article.nlp()

# 关键词
print(article.keywords)

# 文章摘要
print(article.summary)

整体抓取首页

import newspaper

# 构建新闻源
washingtonpost_paper = newspaper.build('https://www.washingtonpost.com')

# 所有文章的url
for article in washingtonpost_paper.articles:
    print(article.url)

# 文章分裂
for category in washingtonpost_paper.category_urls():
    print(category)

Requests和Newspaper结合解析正文

import requests
from newspaper import fulltext

html = requests.get('https://www.washingtonpost.com/business/economy/2019/01/17/19662748-1a84-11e9-9ebf-c5fed1b7a081_story.html?utm_term=.26198c91916f').text
text = fulltext(html)

print(text)

Google Trends信息

import newspaper

# Google的新闻热点
print(newspaper.hot())

# 流行网站
print(newspaper.popular_urls())

多任务

import newspaper
from newspaper import news_pool

# 创建并行任务
slate_paper = newspaper.build('http://slate.com')
tc_paper = newspaper.build('http://techcrunch.com')
espn_paper = newspaper.build('http://espn.com')

papers = [slate_paper, tc_paper, espn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 6 共6个线程

news_pool.join()

print(slate_paper.articles[10].html)

猜你喜欢

转载自blog.csdn.net/weixin_33850015/article/details/87395053

使用Newspaper框架抓取新闻

python3.6使用newspaper快速抓取任何新闻文章正文

python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文

newspaper抓新闻

python数据分析：使用newspaper下载解析新闻并统计词频做词云图

newspaper爬取新闻网站

Newspaper3k 使用

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

界面新闻抓取 | 爬虫

scrapy抓取cnblog新闻

很简陋的rss新闻抓取

使用Scrapy框架爬取腾讯新闻

scrapy抓取中国新闻网新闻

采用scrapy爬虫框架，抓取平顶山学院新闻网！

使用scrapy框架来进行抓取的原因

【AMAD】newspaper -- 爬取/提取新闻网页中的文本，元数据

手把手教你下载38种语言新闻文章的-Newspaper

WebMagic抓取新闻网站

php使用pthreads v3多线程的抓取新浪新闻信息

软件测试|使用Python抓取百度新闻的页面内容

qq新闻内容抓取正则表达

Python抓取新浪新闻数据（三）

Python抓取新浪新闻数据（一）

Python抓取新浪新闻数据（二）

python抓取新浪新闻的分页连结

摩尔金融新闻浏览次数抓取

springboot使用webmagic框架来抓取自己的博客信息

使用pyspider框架抓取猫途鹰旅游信息

scrapy框架的安装与基本使用,scrapy分页数据的抓取

Python爬虫入门教程 80-100 Python 玩转NewSpaper爬虫框架

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)