中国古代诗词文本挖掘项目

其他 2018-11-28 18:33:32 阅读次数: 0

PoemMining

项目地址：https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目

项目介绍

中国古代诗词文化无疑是文化瑰宝，如何运用计量语言学方法对古代诗词进行挖掘，将有重要意义，本项目将从以下几个方面进行尝试:
１）基于诗词集合的诗人画像生成
２）基于诗词集合的诗人地点足迹识别
３）基于诗词集合的相似诗人聚类, 基于ATM模型，user2vec模型
４）基于诗词集合的情绪分类，标签自动生成
５）基于诗词集合的意象挖掘

项目结构

项目主要包括两个任务:

古代诗词语料库的构建
基于古代诗词语料库的挖掘

脚本结构

1, poem_spider.py:主要完成古代诗词语料库的构建，选取的是古诗文网 (https://so.gushiwen.org)，结果已经保存至corpus_poem.zip文件当中
2, poem_process.py:主要基于构建起来的古诗词语料库，进行基础的文本分析，根据网站上的用户交互信息，得到古诗词文本本身的外部信息
3, atm_model.py:利用作者－主题模型，对古诗词进行主题分析，最终目的是实现作者主题分布与风格聚类
4, location_mining.py:基于诗人百科生平记事的地点挖掘与可视化，最终最终实现对诗人关联地点的一键生成．

阶段性成果

1, 古代诗词语料库,一共采集到92127首古代诗词
2, 古代诗词外部计量分析结果，结果保存至result文件夹
3, 诗人足迹一键生成，使用方式如下，结果会直接生成以搜索诗人名字命名的html文件：

from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)

以下是举例结果：
李白足迹

李清照足迹

苏轼足迹

文天祥足迹

项目地址：https://github.com/liuhuanyong/PoemMining

If any question about the project or me ,see https://liuhuanyong.github.io/

猜你喜欢

转载自blog.csdn.net/lhy2014/article/details/82956612

中国古代诗词文本挖掘项目

中国古代建筑

中国古代礼节

中国古代研究

中国古代漆器源流

中国古代神话-记1

中国古代智谋故事大观

论文《浅谈中国古代建筑艺术》

【转】中国古代尚黄习俗成因新探

中国古代建筑模拟题

中国古代历史朝代名称由来

《中国古代的大智慧》读后感

中国古代官阶制度引论.epub

中国古代文学史——先秦

中国古代哲学的8000倍浓缩

超星学习通中国古代史答案-中国古代史尔雅课答案

中国古代的商圣有哪几位，有什么至理名言？

马未都说收藏《马说陶瓷》《明清笔筒》《中国古代门窗》

中国古代四大名著电子书（android）

中国古代天文星象学的入门书步天歌

超星尔雅学习通中国古代史答案-测验作业考试答案

《老子》中国古代先秦诸子百家经典欣赏

2020山东事业单位考试：中国古代儒家思想的发展历程

知行合一中国古代小说鉴赏大作业

[渝粤题库]西北工业大学中国古代法制史

4星|《大英博物馆中国简史》：中国古代代表性文物图解

5星|《南北战争三百年》：还原中国古代冷兵器战争细节

4星|《中国古代的战争之道》：土木堡之后明朝过度关注蒙古未能正确评估满族的威胁

4星|《剑桥中国经济史：古代到19世纪》：经济学视角看中国古代史

洪水来袭，湖北700年古建筑屹立不倒，中国古代抗洪防涝建筑设计有多强？！

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)