word转markdown写CSDN博客

方法一：

https://www.jianshu.com/p/df6a136d06d8
使用Writage + Pandoc先把word转为markdown文件。正常情况安装都没有问题，但是必须注意的是你使用的office版必须2010及以上。否则无法成功。

1.word转markdown文件

打开你需要发布的文件，另存为：
这里写图片描述

保存之后生成对应的md文件，以及图片文件夹。例如
语音.md
以及media

2.图片重新命名

由于文件夹的图片命令没有规则，为了方便，运行脚本：

python mark_pic_rename.py

把文件夹下面所有图片重新命名：
这里写图片描述

3.替换图片链接

然后在csdn写博客。安顺序（0，1，2，3…..）上传所有图片。
复制所有图片的链接如下：
这里写图片描述
并保存为文件名f.txt，用ultredit打开，确认是gbk格式，我在脚本中使用此格式，如果不是在脚本需要修改成你自己的格式。

运行脚本：
python mark_text_displace.py
把md文件所有的图片链接替换成博客上面的网络链接。并重现生成新的文件output.md文件。
这样使用csdn的本机导入md就可以一次导入output.md，这样发布就可以了。
这里写图片描述

完整的代码我会上传到github:https://github.com/hujianhua888/word2markdown, 使用python实现，所以运行需要安装python
最后看一下我的目录有哪些文件：
这里写图片描述

方法二：

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：

#为解析器提供一些数据，数据格式必须是str
HTMLParser.feed(data)   

#重置实例
HTMLParser.reset()  

#处理开始标签 如：<div id="main"> 其中参数对应信息为handle_starttag('id', [('id', 'main')])
HTMLParser.handle_starttag(tag, attrs)

#处理结束标签 如：</div>    
HTMLParser.handle_endtag(tag)   

#处理开始标签和结束标签
HTMLParser.handle_startendtag(tag, attrs)   

#处理一对闭合标签内的text数据 如：<td>G123</td>中的G123
HTMLParser.handle_data(data)    

#处理文档中的注释 如： <!--comment-->
HTMLParser.handle_comment(data) 


handle_charref      处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref    处理一些特殊字符，以&开头的，比如 &nbsp;
handle_comment      处理注释
handle_decl         处理<!开头的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
handle_pi           处理形如<?instruction>的东西

模式元素(如 r’/t’，等价于’//t’)匹配相应的特殊字符。