データを含むJavaScriptコードの一部が取得されます。
import re
import requests
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
}
res = requests.get(
"https://www.kuaikanmanhua.com/web/comic/100868/",
headers=headers
)
script = re.findall(
"<script>window.__NUXT__=([^<]+);</script>", res.text)[0].replace('\\u002F', "/")
script
結果:
このコードはブラウザで直接実行して対応するJSONデータを取得できます。では、Pythonを使用してこのコードを実行してJSデータを取得するにはどうすればよいでしょうか。答えはexecjsを使用することです。
インストール:
pip install PyExecJS
ただし、この時点でNodejsがインストールされているWindowsでコードを直接実行する場合は、次のようになります。
import execjs
execjs.eval(script)
次のエラーが報告されます。
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 447: illegal multibyte sequence
この時点で、execjsの環境を次のように再指定する必要がありますJScript
。
import os
os.environ["EXECJS_RUNTIME"] = "JScript"
スムーズに結果を得るには、もう一度実行してください。
JavaScriptを実行するためにローカルnodejs環境を本当に使用する必要がある場合は、execjsのソースコードを変更する必要があります。
import os
os.environ["EXECJS_RUNTIME"] = "Node"
print(execjs.get().name)
Node.js (V8)
execjs
インストールディレクトリでファイルを検索し_external_runtime.py
ます。
プログラムを再起動し、再度実行して結果を取得します。
関数の呼び出しまたはexecjsの変数の読み取りの例:
import execjs
ctx = execjs.compile("""
function add(x, y) {
return x + y;
}
v = add(3, 4);
""")
print(ctx.call("add", 1, 2), ctx.eval("v"))
3 7
Lib\site-packages\execjs\runtime_names.py
このファイルは、execjsでサポートされているJavaScript環境を確認できます。
PyV8 = "PyV8"
Node = "Node"
JavaScriptCore = "JavaScriptCore"
SpiderMonkey = "SpiderMonkey"
JScript = "JScript"
PhantomJS = "PhantomJS"
SlimerJS = "SlimerJS"
Nashorn = "Nashorn"