シリーズ記事ディレクトリ
無敵のPythonクローラーチュートリアル研究ノート(1)
無敵のPythonクローラーチュートリアル研究ノート(2)
無敵のPythonクローラーチュートリアル研究ノート(3)
無敵のPythonクローラーチュートリアル研究ノート(4)
序文
書かれたクローラーアプレット
基本的なクローラーのソースコードと改善
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
print(resp.read())#读取响应
実行結果:
結果は実際には中国語であり、デコードする必要があります。解決方法を確認すると、utf-8であることがわかります。
デコードを追加して再実行します。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
print(resp.read().decode("utf-8"))#读取响应
結果は中国語でも表示されます。
しかし、まだ問題があります。誰もが見るものは、ブラウザが見るものとはまだ異なる、理解できないものの束です。彼をファイルに保存します。
コードをもう一度変更して、コードをより快適に見て理解できるようにします。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步
from urllib.request import urlopen#导包
url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应
with open("mybaidu.html",mode="wb") as f:
f.write(resp.read())
print("over!!!")
プロンプト操作は成功し、クロールされたコンテンツはmybaidu.htmlに配置されます。
今と大差ありません。心配しないで、実行をクリックしてこのHTMLファイルを実行しましょう。
これは最も基本的なクローラーフレームワークであり、ターゲットURLを変更するだけで済みます。