另类!这项目没有一行代码,30k star 和 近40w的内容收录,登顶GitHub热榜

点击上方“Github中文社区”,关注

看遍Github好玩的项目

第015期原创分享 作者:huber

大家好,我是hub妹,咱们又见面了!

最近看到小侄女整天抱着pad背诵古诗词,让我想起了自己曾经背诵诗词的苦逼时代,那时候没pad,  都是抱着课本啃,背不完当天任务就不让回家,现在想起来都有阴影……

那么问题来了:她们pad里的古诗词,数据都是哪来的?APP厂家自己收集的?还是有公共数据资源?  好奇之下网上查了一下,居然发现了GitHub上有这么个让人鸡冻的项目 : chinese-poetry

这可真是一个情怀项目啊,来自几十位贡献者,搜集出了最全的中华古典文集数据库,包含5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近1.4 万古诗人,和两宋时期 1.5 千古词人。数据基本都是来源于互联网。

而且目前已经收获 Star 近 30k !

这么受欢迎的数据,把诗人们都给激动坏了:

为什么要做这个仓库?

据官方简介:古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

词频分析

项目对数据库做了一个初步的词频分析,不过用现代技术去分析古诗词,总感觉怪怪的呢?????  这里列举部分词频分析图:

宋词受欢迎的词牌名:

宋词高频词:

宋词作者榜:

唐诗高频词:

唐诗作者榜

已含数据集

每一个集合可直接点击进入子集,比如我点击诗经后,进入了诗经的子集页面,有进一步介绍:

诗经

中国最早诗歌总集, 《诗经》,是中国古代诗歌开端,最早的一部诗歌总集,收集了西周初年至春秋中叶(前11世纪至前6世纪)的诗歌,共311篇,其中6篇为笙诗,即只有标题,没有内容,称为笙诗六篇(南陔、白华、华黍、由康、崇伍、由仪),反映了周初至周晚期约五百年间的社会面貌。来自百科

数据格式

shijing.json

[

  {

    "title": "关雎",

    "chapter": "国风",

    "p": "周南",

    "content": [

      "关关雎鸠,在河之洲。窈窕淑女,君子好逑。",

      "参差荇菜,左右流之。窈窕淑女,寤寐求之。",

      "求之不得,寤寐思服。悠哉悠哉,辗转反侧。",

      "参差荇菜,左右采之。窈窕淑女,琴瑟友之。",

      "参差荇菜,左右芼之。窈窕淑女,钟鼓乐之。"

    ]

  }

应用案例

项目还提供了数个应用案例:

咱们就点第一个案例看一下效果:

关于贡献

目前已经聚集了近30位贡献者

贡献的方式也很简单,可用自己的方式将采取到的古诗词以JSON格式按照项目官方标准提交即可

传送门

https://github.com/chinese-poetry/chinese-poetry

写在最后

中文诗词,之所以让人们从古至今都在学习,是因为那都是古人们思想与智慧的结晶,大家来随便欣赏几句李白被网友们评为最狂的诗句:

十步杀一人,千里不留行。

事了拂衣去,深藏身与名。

    ——《侠客行》

仰天大笑出门去,我辈岂是蓬蒿人。

——《南陵别儿童入京》

兴酣落笔摇五岳,诗成笑傲凌沧洲。

——《江上吟》

这个项目是一个典型的,拿GitHub当公共数据库使用的项目????????,这种方式简单并且方便维护,贡献者直接上传json文件就行,应用端对数据获取也很方便直接,开发者们能如此快捷的使用这些数据,都要归功于这些无私的贡献者们

大家请起立,为贡献者们鼓掌


OK!到这就是这期分享

如果觉得文章有意思,请点赞在看,分享。

历史原创

 卧槽!红色警戒游戏源代码被开源了!

 毫无破绽!用这个开源项目换了张脸后,连女朋友都难分真假,能否骗过刷脸支付?

 强!这个GitHub官方终端命令行工具!星标10K!真是让人相见恨晚啊

 当年锤子的大爆炸,如今12个语言版本都可轻松搞定!

点个在看呗!

猜你喜欢

转载自blog.csdn.net/weixin_39016100/article/details/106700805