Pythonは、URL内のすべての漢字を抽出します

一例として、「冠状動脈性心臓病」の言葉に:

 

我々はすべての処理を行っていないため、URLをコピーした後、今度はJavaScript要求URLとURLコードの中国のパラメータの中国の伝記パラメータの存在は、ブラウザのメカニズムに従って符号化されたが、この時点でのコーディングが文字化けします。

- * -コーディング:UTF-8 - * - 
インポートの再
 から urllib.request インポート引用、にunquote 


冠状動脈性心臓病の百科事典URL 
URL = " https://baike.baidu.com/item/%E5%86%A0%E7 %。8A%B6%E5%。8Aの%A8%E8%84%89%E7%B2%A5%E6%A0%B7%E7%A1%AC%E5%8C%96%E6%の80%A7%以下のE ' \
       ' 5%BFの%83%E8%84%8F%E7%97%85/2252719?fromtitle =%E5%86%A0%E5%BFの%83%E7%97%85&fromid = 547 914&FR =アラジン' 
H =にunquote( URL、エンコード= ' UTF-8 'デコードし、トランジットのURLコード符号化漢字 
パターンを= re.compile(" [^ \ u4e00- \ u9fa5] "#のパターンは、すべての漢字にマッチします
re.sub = M(パターン、「」、H)  すべての文字が空外部のモード、すなわち、非漢字に置き換え
印刷(M)

 

結果:

おすすめ

転載: www.cnblogs.com/cttcarrotsgarden/p/12219948.html