Python爬取网页所需内容+王者荣耀官网

目标:

  1. 完成对王者荣耀游戏的所有英雄头像、皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requestsjsonlxmlseleniumos等。王者荣耀英雄官网地址如下:https://pvp.qq.com/web201605/herolist.shtml

方法与思路:

  1. 爬取官网的整个页面数据,即页面中的 HTML 数据内容。
  2. 分析全网数据,并提取英雄信息,字段内容有英雄名称、英雄图片地址、详情链接地址等,以 csv 格式的 文件保存到本地。
  3. 通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 (“云中君”)至最后一个英雄(“廉 颇”),然后保存数据,英雄皮肤数据信息文件为 json文件
  4. 从文件中读取英雄皮肤信息,并提取皮肤名称、皮肤图片地址,然后下载图片,把图片命名为“皮肤名称.jpg” 进行保存。
  5. csv 文件中读取数据内容,获得英雄名称、图片地址;创建相应的英雄名称的目录,下载图片。

需要的库:

  1. requests
  2. os
  3. selenium
  4. re
  5. lxml
  6. json
  7. matplotlib

项目过程:

  1. 爬取网页信息

     ​​​​​​​2.新建html文件保存在本地

     3.抓取英雄信息

     4.以csv格式保存在本地

     5.从文件中读取英雄信息,并提取名称、图片地址,然后下载图片,把图片命名为“名称.jpg”进行保存 ;

     6.使用 selenium 操作界面化浏览器(Chrome),先安装 Chrome 浏览器、使用 chrome 驱动文件;

     7.提取皮肤数据信息,通过读取 csv 文件数据,并爬取英雄详情页面的皮肤信息,从第 1 (“云中君”)至最后一个英雄(“廉颇”), 然后,保存数据,英雄皮肤数据信息文件为 json

     8.王者皮肤数量分析图,读取 json 文件中的数据; --名称、皮肤地址

获得英雄名称、皮肤个数 [英雄名称]、[皮肤个数]

 

      9.绘制分析图:

成果代码地址:

链接:https://pan.baidu.com/s/1d16j7HVEAty4fGtK6JyjMA 
提取码:ncqh 

发布了21 篇原创文章 · 获赞 14 · 访问量 4110

猜你喜欢

转载自blog.csdn.net/Cxk___/article/details/100185639