直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy - 代码天地

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

其他 2018-05-27 08:37:30 阅读次数: 0

LiveTV Mining

介绍

项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分析模块。

架构采用前后端分离，通过RESTFul API通信。前端Vue+Webpack，后端Flask。

文件结构分为三部分，每个部分可以单独提供服务：

frontend 前端代码，使用Vue+Webpack开发管理。
server 后端RESTFul服务，使用Flask搭建提供API。
crawler 爬虫服务，使用框架scrapy对直播站点爬取数据。

使用中有问题或更新建议，欢迎提issue或用以下联系方式跟我交流：

邮件: [email protected]
QQ: 3084582097

历程

2017-05-10 开发新爬虫火猫。
2017-04-24 全民收集开发完成。
2017-04-22 熊猫收集开发完成。
2017-04-20 斗鱼收集开发完成。
2017-04-15 准备开发收集站点房间：关注数、公告、上一次开播时间、打赏值、开播当天人气中位数。
2017-04-01 变更LICENSE：GPL -> Apache。
2017-03-20 开发新爬虫全民。
2017-03-03 开发新爬虫龙珠。
2017-03-01 恢复爬虫熊猫、战旗。
2017-01-07 完成全部功能迁移，前后端分离完成。
2016-12-24 引入vuex进行state和权限管理。
2016-12-15 引入vue-resource，主模块(Main)完成分离。
2016-11-25 研究流行前端框架和开发方式，确定使用webpack开发。
2016-11-20 重新设计结构，进行前后端分离。
2016-11-01 修正改造搜索功能，需要登录后才能使用。
2016-10-29 完成渲染初步改造，已实现调用REST API进行访问读取。爬虫运行间隔20分钟。
2016-10-20 引入Vue.js，改造前端渲染方式，减轻服务器压力。开发完成简单 Flask-Vue 插件。
2016-10-15 引入Scrapy重构爬虫，精简爬虫步骤。仅保留斗鱼、BiliBli爬虫。

2016-08-15 v1.0版本开发结束，代码保存在分支v1.0

感激

感谢以下项目的支持，排名不分先后

猜你喜欢

转载自blog.csdn.net/zwtzjd/article/details/51083733

直播网站LiveTV Mining，爬虫抓取数据 python3+scrapy

Python3+Scrapy实现网页爬虫

python3+Scrapy爬虫实战（一）—— 初识Scrapy

使用Python3+scrapy爬取某电影网站数万条数据到MySQL数据库！

【爬虫】Scrapy 抓取网站数据

python3+Scrapy爬虫实战（三） —— 使用代理IP，爬取“去哪儿”景点信息

python3+Scrapy爬虫实战（二）—— 使用pipeline数据保存到文本和数据库（mysql）

Python爬虫使用selenium抓取网站数据

【爬虫学习四】 Python大型爬虫案例: 抓取某电商网站的商品数据（1）

【爬虫学习五】 Python大型爬虫案例: 抓取某电商网站的商品数据（2）代码和效率优化

python爬虫抓取网站技巧总结

python 爬虫抓取网站img图片

python网络爬虫抓取网站图片

python爬虫抓取网站情况举例

Node爬虫抓取视频网站数据

Centos7下安装Python3+scrapy以及填坑

Python3+Scrapy爬取百度音乐排行榜

python爬虫入门（3）----- scrapy

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

python爬虫抓取链家租房数据

python网络爬虫及数据抓取（一）

python 爬虫（四）抓取Ajax数据

Python抓取数据如何设置爬虫ip

python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题，显示301/302状态码

scrapy爬虫【D】3 实战 - scrapy爬虫抓取京东图书

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

python3 爬虫抓取股市数据

Python爬虫抓取框架：Scrapy的架构

python 网站爬虫（四） Scrapy讲解

python爬虫(一)_爬虫原理和数据抓取

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)