Python爬虫学习P10-P13综合练习之=03screenflow爬取

P10-6-作业

  • 作业:p://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

    • 需求:爬取药品监督管理总局中基于中
      http://125.35.6.84:81/xk/

      • 动态加载数据
      • 首页中对应的企业信息数据是通过ajax动态请求到的。

      http://125.35.6.84:81/xk/itownet/portal/dzpz.jsp?id=e6c1aa332b274282b04659a6ea30430a
      http://125.35.6.84:81/xk/itownet/portal/dzpz.jsp?id=f63f61fe04684c46a016a45eac8754fe

      • 通过对详情页url的观察发现:
        • url的域名都是一样的,只有携带的参数(id)不一样
        • id值可以从首页对应的ajax请求到的json串中获取
        • 域名和id值拼接处一个完整的企业对应的详情页的url
      • 详情页的企业详情数据也是动态加载出来的
        • http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById
        • http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById
        • 观察后发现:
          • 所有的post请求的url都是一样的,只有参数id值是不同。
          • 如果我们可以批量获取多家企业的id后,就可以将id和url形成一个完整的详情页对应详情数据的ajax请求的url

猜你喜欢

转载自blog.csdn.net/weixin_43428283/article/details/110200294
今日推荐