爬虫類繁体字中国語は、ゴミ問題を解決する文字化け

作業は、通常の試合と直接簡単にするために、対応する淘宝網の売り手のアカウントをクロールするために必要な会計の名前を必要とします。PS:python2.7と古いプロジェクト、

3つの問題が発生しました:

1.中国の歪みは、直接= 'UTF-8' Response.encoding開始し、中国の結果が文字化けします。確認情報は、2312ページのエンコード形式にリターンをResponse.apparent_encodingで見ることができます

2.繁体字中国語は、単に何の問題も文字化けしませんが、伝統的な文字が文字化けして、=「2312」Response.apparent_encodingは、その後、情報を確認し、ブラウザで直接Webページのソースコードを参照してください、変更<=「GBKの」メタ文字セットを>見つけますGBKの問題解決

3.通常の文字が一致していResponse.textがUnicode形式であるため、UTF-8に転送する必要のpythonをサポート

 

 

おすすめ

転載: www.cnblogs.com/yeteng/p/10954100.html