一例として、「冠状動脈性心臓病」の言葉に:
我々はすべての処理を行っていないため、URLをコピーした後、今度はJavaScript要求URLとURLコードの中国のパラメータの中国の伝記パラメータの存在は、ブラウザのメカニズムに従って符号化されたが、この時点でのコーディングが文字化けします。
#- * -コーディング:UTF-8 - * - インポートの再 から urllib.request インポート引用、にunquote #冠状動脈性心臓病の百科事典URL URL = " https://baike.baidu.com/item/%E5%86%A0%E7 %。8A%B6%E5%。8Aの%A8%E8%84%89%E7%B2%A5%E6%A0%B7%E7%A1%AC%E5%8C%96%E6%の80%A7%以下のE ' \ ' 5%BFの%83%E8%84%8F%E7%97%85/2252719?fromtitle =%E5%86%A0%E5%BFの%83%E7%97%85&fromid = 547 914&FR =アラジン' H =にunquote( URL、エンコード= ' UTF-8 ') #デコードし、トランジットのURLコード符号化漢字 パターンを= re.compile(" [^ \ u4e00- \ u9fa5] ") #のパターンは、すべての漢字にマッチします re.sub = M(パターン、「」、H) #すべての文字が空外部のモード、すなわち、非漢字に置き換え 印刷(M)
結果: