Pythonの爬虫類シリアル2-REPONSE \パースのプロフィール

解決するにはA、REPONSE

urlopen戻りオブジェクト

(1)のgetURL:ページアドレスへの復帰

(2)情報:オブジェクト・メタの要求フィードバック情報

(3)のgetcode:HTTPコードが返されます

 

 

urllibはインポート要求

インポートchardet 

"" " 

解析REPONSE 

""" 

であれば __name__ == " __main__ " 

    URL = " https://www.baidu.com " 

    RSP = request.urlopen(URL)

    プリント" URL:{0を} " .format(rsp.geturl())) 网页地址

    プリント" ================ " 

    プリント" 情報:{0} " .format(RSP。情報())) #のページのヘッダー情報

    印刷" ================ " 

    印刷" コード:{0} " .format(rsp.getcode())) は、要求のステータスコードを返し

 

二、パース

1.request.date使用

ネットワークにアクセスするには2つの方法

(1)を得る(2)ポスト

決意のURLに使用2.url.parse

 

from urllib import request,parse

import chardet

"""

解析reponse

"""

if __name__ == "__main__":

    url = "http://www.baidu.com/s?"

    wd = input("Input your keyword:")

    #要想使用data,需要使用字典结构

    qs = {

        "wd":wd

    }

    #转换url编码

    qs = parse.urlencode(qs)#对关键字进行编码

    fullurl = url + qs#百度搜索传入的地址是基础地址加上关键字的编码形式

    print(fullurl)

    rsp = request.urlopen(fullurl)

    html = rsp.read()

    html = html.decode()#解码

    #使用get取值保证不会出错

    print(html)

 

三、源码

Reptile2_ReposeAnlysis.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile2_ReposeAnlysis.py

2.CSDN:https://blog.csdn.net/weixin_44630050(心悦君兮君不知-睿)

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

 

おすすめ

転載: www.cnblogs.com/ruigege0000/p/12185416.html