根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页 - 代码天地

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

其他 2018-08-08 14:06:21 阅读次数: 0

在今日头条上输入关键词，爬取与关键词相关的新闻各类信息和内容页。

今日头条爬取主要困难如下：

（1）采用下拉翻滚动态加载新的新闻条目，即瀑布流；

（2）内容详情页为动态页面，大部分网页源代码类似字典形式，一部分为带标签的结构化页面。

本文采用两种方式爬取，都将爬取的数据写入到数据库中，主要爬虫代码在JinRiTouTiao.py中，小编在pipelines.py中使用了mysql数据库存储数据，读者可忽略，若使用请配置数据库相关信息。

github链接：https://github.com/kingdomrushing/SpiderTouTiao-python/tree/master

（一）使用scrapy+Selenium +phantomjs爬取：

爬虫为spiders/JinRiTouTiao.py

因为使用的是Selenium +phantomjs，所以无论是静态页面还是动态页面都可以爬取，抓取十分准确，但是速度非常慢，小编爬时是一分钟两个items，可能与小编的网速和电脑配置不高有关。

(二) 使用scrapy+urllib+lxml爬取：

爬虫为toutiao.py

推荐使用，爬取速度比较快，爬取数据较为准确。

人非圣贤，孰能无过？欢迎大家指正，也欢迎大家有好的想法可以一起交流，小编QQ:2422035338，大家有什么问题或者想法欢迎骚扰。

猜你喜欢

转载自blog.csdn.net/qq_37913997/article/details/81143665

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

[python爬虫小实战2]根据用户输入关键词爬取今日头条图集，并批量下载图片

爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

python爬取今日头条新闻，js解密

爬取今日头条财经版块新闻

python 爬取今日头条热点新闻

爬取今日头条

今日头条的爬取

python爬取今日头条关键字图集

Python爬虫——新闻热点爬取中国新闻网,今日头条，

使用ajax爬取今日头条街拍图片

今日头条图片爬取和下载

根据地理位置和关键词爬取twitter数据并生成词云

python爬取今日头条图片

今日头条图片爬取(一)

今日头条图片爬取(二)

爬取今日头条短视频

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】

requests整合selenium爬取网站关键词排名

网站内容页关键词排名优化的技巧和方法

Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】

Scrapy实现对新浪微博某关键词的爬取以及不同url中重复内容的过滤

pyspider　爬取今日头条的关键字里文章

爬取某站新闻，并分析最近新闻关键词

【教程】爬取和统计Google Scholar上指定关键词的文章信息

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

python爬虫之分析Ajax信息爬取今日头条街拍美图

今日头条网站的模拟登陆及新闻的评论

Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)