以前、htmlをマークダウン形式に変換するライブラリをたくさん見つけましたが、いくつかのライブラリはうまく機能しませんでしたが、その後、html2textを使用したところ、効果は少し改善されました。
html2text
原則として、 を使用してHTMLParser
HTML タグを 1 つずつ解析し、各タグに従ってマークダウン形式に復元します。
html2textのインストール
html2text
住所は次のとおりです。
http://www.aaronsw.com/2002/html2text/
html2text.py
これは、Web サイトをオンラインでマークダウン形式に変換し、ダウンロードして独自のプロジェクトに組み込むことができる Web ページ整形ツールです。
github
上記のアドレスは次のとおりです。
https://github.com/aaronsw/html2text
html2テキストの使用
また、他のライブラリよりも使用が簡単です。
import html2text
article_content = ""
html2text.html2text(article_content)
html2text
必要なマークダウンをよく理解できない場合がありますが、幸いなことに、html2text.py
マークダウンはそれほど複雑ではないため、このソース コードに基づいて対応する修正を加えることができます。