導入
インターネット上では貴重な記事をよく見かけますが、これらの記事を保存したい場合は、テキスト ファイルまたは PDF ファイルとしてエクスポートすることができます。しかし、それを .md ファイル (マークダウン リーダーで使用されるファイル形式) として保存したい場合はどうすればよいでしょうか? この記事では、Python スクリプトを使用してオンライン記事を .md ファイルにエクスポートする方法を紹介します。
成し遂げる
この Python スクリプトで実装される主な機能は次のとおりです。
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import html2text
import re
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
'Referer': 'http://www.example.com/'
}
def export_article(url):
# 发送 GET 请求获取文章页面内容
response = requests.get(url, headers=headers)
html_content = response.text
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 提取文章标题和内容
title = soup.select_one('.title-article').text.strip()
article_content = soup.select_one('.article_content').prettify()
# 将文章内容转换为 Markdown 格式
md_content = html2text.html2text(article_content)
# 对文章的图片做处理(部分图片的链接会自动换行)
pattern = r'(https?://[^\s\r\n]+)[\r\n\s]+'
replacement = r'\1'
for _ in range(2):
md_content = re.sub(pattern, replacement, md_content)
# 将 Markdown 内容保存为文件
with open(f"{
title}.md", "w", encoding="utf-8") as f:
f.write(md_content)
print(f"文章已成功导出为 {
title}.md")
export_article("https://blog.csdn.net/xxxxxxxxxx")
このスクリプトを使用すると、ユーザーはインターネット上の記事を .dm ファイルとして簡単に保存して、オフラインで読むことができます。同時に、ユーザーは自分のニーズに応じて .dm ファイルの形式を柔軟に調整し、パーソナライズされた読書のニーズを満たすことができます。
このスクリプトは学習と参照のみを目的としており、許可なくその他の違法または商業目的で使用することはできないことに注意してください。スクリプトを使用する場合は、各サイトの利用規約や著作権規定を遵守し、原作者の権利を尊重してください。