CSDN指数

CSDN指数的由来

CSDN目前积累了大量的数据,包括博客,问答,社区,下载以及搜索,近几个月以来,我们AI团队致力于结构化这部分数据,做了很多的努力,最先是统一了全站的标签,形成了CSDN自己的统一标签,之后清洗存量数据,对数据标统一标签,打通结构化数据的路子,完成了首版python技能树

而在此基础之上,我们想发布一个指数数据,统计的是标签下面的内容数量,例如标签相关的创作内容数和相关的搜索数,对他们进行加权计算形成CSDN指数,形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术,更可以以图表的方式展示相关IT技术的发展趋势。

CSDN指数的计算

按照原方案,是要对所有存量的数据进行清洗打统一标签(基于前面介绍的博客标签的多标签分类器),时间范围是从2000年至今,由于数据存储等原因,还没有完成对存量历史数据的清洗,所以这里采用了一个简单粗略的方案,后续随清洗的进度进行迭代更新。

首先,整理标签的同义词。搜索和统计都会用到标签同义词。

其次,统计数量。下载所有存量数据的标题和内容,包括博客,问答,社区帖子,下载和搜索关键词,将标签及其同义词添加自定义分词词典,然后对数据进行分词,按照天统计内容里面出现标签或者标签同义词的次数。

最后,计算指数。采用的是创作和搜索加权相加的方案,例如,标签java某一天的CSDN总创作数为a,同一天的搜索数为b,创作和搜索的权重分别为x和y,标签java当天的指数为:

index = math.ceil(x*a+y*b)

x和y是为了平衡创作和搜索的权重用的,如果有一方的数据偏大或者缺失可以通过权重参数进行平衡,避免数据断崖式上升或者下降。

写在最后

CSDN指数将会是一个很有意义的指标,可以用来展示IT行业技术的发展方向,追踪热门技术。随着统一标签的不断完善,数据处理进度的推进,其版本也会不断迭代。若您对我们的工作有任何疑问,随时欢迎反馈。

猜你喜欢

转载自blog.csdn.net/zxm2015/article/details/120848689
今日推荐