無敵のPythonクローラーチュートリアル研究ノート(2)

シリーズ記事ディレクトリ

無敵のPythonクローラーチュートリアル研究ノート(1)
無敵のPythonクローラーチュートリアル研究ノート(2)
無敵のPythonクローラーチュートリアル研究ノート(3)
無敵のPythonクローラーチュートリアル研究ノート(4)



序文

書かれたクローラーアプレット


基本的なクローラーのソースコードと改善

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read())#读取响应

実行結果:
ここに画像の説明を挿入
結果は実際には中国語であり、デコードする必要があります。解決方法を確認すると、utf-8であることがわかります。
ここに画像の説明を挿入
デコードを追加して再実行します。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read().decode("utf-8"))#读取响应

結果は中国語でも表示されます。
ここに画像の説明を挿入
しかし、まだ問題があります。誰もが見るものは、ブラウザが見るものとはまだ異なる、理解できないものの束です。彼をファイルに保存します。
コードをもう一度変更して、コードをより快適に見て理解できるようにします。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步


from urllib.request import urlopen#导包


url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

with open("mybaidu.html",mode="wb") as f:
    f.write(resp.read())

print("over!!!")

ここに画像の説明を挿入
プロンプト操作は成功し、クロールされたコンテンツはmybaidu.htmlに配置されます。
ここに画像の説明を挿入
今と大差ありません。心配しないで、実行をクリックしてこのHTMLファイルを実行しましょう。
ここに画像の説明を挿入
これは最も基本的なクローラーフレームワークであり、ターゲットURLを変更するだけで済みます。

おすすめ

転載: blog.csdn.net/qq_53571321/article/details/123072988