手把手写个爬取it博客的网站-需求分析

陆陆续续折腾一周的网站上线了,地址在这里https://blogsel.me

这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。

针对这个网站的实现过程,分为8篇文章分别说明:

0.手把手写个爬取IT博客的网站-提纲
1.手把手写个爬取IT博客的网站-需求分析
2.手把手写个爬取IT博客的网站-技术选型
3.手把手写个爬取IT博客的网站-框架搭建
4.手把手写个爬取IT博客的网站-数据采集
5.手把手写个爬取IT博客的网站-数据展示
6.手把手写个爬取IT博客的网站-域名申请和服务器采购
7.手把手写个爬取IT博客的网站-系统上线
8.手把手写个爬取IT博客的网站-网站优化

本篇为本系列文章的第二篇:手把手写个爬取IT博客的网站-需求分析

做这个网站的初衷是,由于自己平时喜欢关注一些技术牛人的博客,但是一个个翻看博客效率有点低,而且并不是每个博客每天都更有更新。所以想着有一个聚合这些博客文章的站点。

虽然也考虑用RSS订阅,但是很多比较新的站点都不在支持RSS了,所以就只好放弃这个想法。

既然没有合适的方法,只能自己录撸一个咯。

首先,网站的定位为一个IT博客站点的索引站点,即网站近抓取其他博客上的文章链接、标题和摘要信息,并不存储原网站全部信息。 具体设计为:网站以信息流的形式展示文章标题和摘要,点击标题后跳转到原文章,充分最终作者的版权。 另外由于有的博客文章并不全部为纯技术文章,所以会对文章做一个粗略的分类。

对每篇文章打上关键字标签,方便后期根据标签快速定位自己感兴趣的分类文章。

个人平时使用https://readhub.me看科技新闻,非常喜欢其简洁清爽的样子,所以主题风格打算参考这个网页。

猜你喜欢

转载自blog.csdn.net/mooyinn/article/details/81208311