word转markdown写CSDN博客

方法一:

https://www.jianshu.com/p/df6a136d06d8
使用Writage + Pandoc先把word转为markdown文件。正常情况安装都没有问题,但是必须注意的是你使用的office版必须2010及以上。否则无法成功。

1.word转markdown文件

打开你需要发布的文件,另存为:
这里写图片描述

保存之后生成对应的md文件,以及图片文件夹。例如
语音.md
以及media

2.图片重新命名

由于文件夹的图片命令没有规则,为了方便,运行脚本:

python mark_pic_rename.py

把文件夹下面所有图片重新命名:
这里写图片描述

3.替换图片链接

然后在csdn写博客。安顺序(0,1,2,3…..)上传所有图片。
复制所有图片的链接如下:
这里写图片描述
并保存为文件名f.txt,用ultredit打开,确认是gbk格式,我在脚本中使用此格式,如果不是在脚本需要修改成你自己的格式。
这里写图片描述

运行脚本:
python mark_text_displace.py
把md文件所有的图片链接替换成博客上面的网络链接。并重现生成新的文件output.md文件。
这样使用csdn的本机导入md就可以一次导入output.md,这样发布就可以了。
这里写图片描述

完整的代码我会上传到github:https://github.com/hujianhua888/word2markdown, 使用python实现,所以运行需要安装python
最后看一下我的目录有哪些文件:
这里写图片描述

方法二:

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:

#为解析器提供一些数据,数据格式必须是str
HTMLParser.feed(data)   

#重置实例
HTMLParser.reset()  

#处理开始标签 如:<div id="main"> 其中参数对应信息为handle_starttag('id', [('id', 'main')])
HTMLParser.handle_starttag(tag, attrs)

#处理结束标签 如:</div>    
HTMLParser.handle_endtag(tag)   

#处理开始标签和结束标签
HTMLParser.handle_startendtag(tag, attrs)   

#处理一对闭合标签内的text数据 如:<td>G123</td>中的G123
HTMLParser.handle_data(data)    

#处理文档中的注释 如: <!--comment-->
HTMLParser.handle_comment(data) 


handle_charref      处理特殊字符串,就是以&#开头的,一般是内码表示的字符
handle_entityref    处理一些特殊字符,以&开头的,比如 &nbsp;
handle_comment      处理注释
handle_decl         处理<!开头的,比如<!DOCTYPE html PUBLIC-//W3C//DTD HTML 4.01 Transitional//ENhandle_pi           处理形如<?instruction>的东西

模式元素(如 r’/t’,等价于’//t’)匹配相应的特殊字符。

猜你喜欢

转载自blog.csdn.net/bvngh3247/article/details/81011624