Python サードパーティ ライブラリ: html2text を使用して HTML をマークダウン形式に変換します

以前、htmlをマークダウン形式に変換するライブラリをたくさん見つけましたが、いくつかのライブラリはうまく機能しませんでしたが、その後、html2textを使用したところ、効果は少し改善されました。

html2text原則として、 を使用してHTMLParserHTML タグを 1 つずつ解析し、各タグに従ってマークダウン形式に復元します。

html2textのインストール

html2text 住所は次のとおりです。

http://www.aaronsw.com/2002/html2text/

html2text.pyこれは、Web サイトをオンラインでマークダウン形式に変換し、ダウンロードして独自のプロジェクトに組み込むことができる Web ページ整形ツールです。

github上記のアドレスは次のとおりです。

https://github.com/aaronsw/html2text

html2テキストの使用

また、他のライブラリよりも使用が簡単です。

import html2text
article_content = ""
html2text.html2text(article_content)

html2text必要なマークダウンをよく理解できない場合がありますが、幸いなことに、html2text.pyマークダウンはそれほど複雑ではないため、このソース コードに基づいて対応する修正を加えることができます。

おすすめ

転載: blog.csdn.net/weixin_40425640/article/details/124074494#comments_28535927