execjsは、中国語のパラメーターを含むJavaScriptを実行します

データを含むJavaScriptコードの一部が取得されます。

import re
import requests

headers = {
    
    
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
}
res = requests.get(
    "https://www.kuaikanmanhua.com/web/comic/100868/",
    headers=headers
)
script = re.findall(
    "<script>window.__NUXT__=([^<]+);</script>", res.text)[0].replace('\\u002F', "/")
script

結果:

画像-20220223204934945

このコードはブラウザで直接実行して対応するJSONデータを取得できます。では、Pythonを使用してこのコードを実行してJSデータを取得するにはどうすればよいでしょうか。答えはexecjsを使用することです。

インストール:

pip install PyExecJS 

ただし、この時点でNodejsがインストールされているWindowsでコードを直接実行する場合は、次のようになります。

import execjs

execjs.eval(script)

次のエラーが報告されます。

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 447: illegal multibyte sequence

この時点で、execjsの環境を次のように再指定する必要がありますJScript

import os

os.environ["EXECJS_RUNTIME"] = "JScript"

スムーズに結果を得るには、もう一度実行してください。

JavaScriptを実行するためにローカルnodejs環境を本当に使用する必要がある場合は、execjsのソースコードを変更する必要があります。

import os

os.environ["EXECJS_RUNTIME"] = "Node"
print(execjs.get().name)
Node.js (V8)

execjsインストールディレクトリでファイルを検索し_external_runtime.pyます。

画像-20220223204010168

プログラムを再起動し、再度実行して結果を取得します。

画像-20220223204725760

関数の呼び出しまたはexecjsの変数の読み取りの例:

import execjs

ctx = execjs.compile("""
       function add(x, y) {
               return x + y;
       }
       v = add(3, 4);
""")
print(ctx.call("add", 1, 2), ctx.eval("v"))
3 7

Lib\site-packages\execjs\runtime_names.pyこのファイルは、execjsでサポートされているJavaScript環境を確認できます。

PyV8           = "PyV8"
Node           = "Node"
JavaScriptCore = "JavaScriptCore"
SpiderMonkey   = "SpiderMonkey"
JScript        = "JScript"
PhantomJS      = "PhantomJS"
SlimerJS       = "SlimerJS"
Nashorn        = "Nashorn"

おすすめ

転載: blog.csdn.net/as604049322/article/details/123099139