CSDN指数

CSDN目前积累了大量的数据，包括博客，问答，社区，下载以及搜索，近几个月以来，我们AI团队致力于结构化这部分数据，做了很多的努力，最先是统一了全站的标签，形成了CSDN自己的统一标签，之后清洗存量数据，对数据标统一标签，打通结构化数据的路子，完成了首版python技能树。

而在此基础之上，我们想发布一个指数数据，统计的是标签下面的内容数量，例如标签相关的创作内容数和相关的搜索数，对他们进行加权计算形成CSDN指数，形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术，更可以以图表的方式展示相关IT技术的发展趋势。

按照原方案，是要对所有存量的数据进行清洗打统一标签（基于前面介绍的博客标签的多标签分类器），时间范围是从2000年至今，由于数据存储等原因，还没有完成对存量历史数据的清洗，所以这里采用了一个简单粗略的方案，后续随清洗的进度进行迭代更新。

首先，整理标签的同义词。搜索和统计都会用到标签同义词。

其次，统计数量。下载所有存量数据的标题和内容，包括博客，问答，社区帖子，下载和搜索关键词，将标签及其同义词添加自定义分词词典，然后对数据进行分词，按照天统计内容里面出现标签或者标签同义词的次数。

最后，计算指数。采用的是创作和搜索加权相加的方案，例如，标签java某一天的CSDN总创作数为a，同一天的搜索数为b，创作和搜索的权重分别为x和y，标签java当天的指数为：

index = math.ceil(x*a+y*b)

x和y是为了平衡创作和搜索的权重用的，如果有一方的数据偏大或者缺失可以通过权重参数进行平衡，避免数据断崖式上升或者下降。

CSDN指数将会是一个很有意义的指标，可以用来展示IT行业技术的发展方向，追踪热门技术。随着统一标签的不断完善，数据处理进度的推进，其版本也会不断迭代。若您对我们的工作有任何疑问，随时欢迎反馈。