第一个python爬虫小脚本

京东爬虫小脚本

这两天看了一下，没想到这个小脚本的阅读量挺高的，认真说，我觉得自己写的这篇博客蛮粗糙的，因为是第一篇嘛。为了方便入门的同学尽早掌握爬虫，这里我得把这篇博客完善一下。写爬虫程序一定要会使用Google开发者工具，这个chrome浏览器自带的，F12快捷键就直接出来了，然后选中network面板，再刷新页面，network里面就会对请求信息进行抓取；另外一种方式是安装抓包工具，比如fiddler，不过要对浏览器进行配置，但fiddler功能非常强大，可以对电脑上的所有网络请求信息进行抓取。爬虫的关键是在于分析问题。

() 最近从Java开始转python，因为工作需求，需要做一些爬虫的工作，所以看了一两天的python语法就直接开干了，学习python爬虫直接从一些小例子开始，下面记录一下，希望能对大家有一些参考意义。
爬取目标是京东上的手机信息
在这里插入图片描述
要爬取的手机信息的em元素
爬取的url链接和手机信息如上图。废话不多说，直接上代码：

import requests
from bs4 import BeautifulSoup

url="https://list.jd.com/list.html?cat=9987,653,655"
html=requests.get(url)   #request的get 方法来获取html
html.encoding="utf-8"   #设置编码方式位utf-8,防止乱码
# print(html.text)
soup=BeautifulSoup(html.text,"html.parser") #BeautifulSoup是一个网页解析库，利用它不用写正则就可以实现网页信息的抓取
# print(soup.select('.J_price'))
# print(soup.find_all('em')[35])
file = open('jngdong.txt','w+',encoding='utf-8')   #打开一个文件，w+：如果没有，则创建文件；如果文件存在，则将其覆盖并清空原有内容
#print(soup.select('.p-name em'))  #select css选择器  class为p-name 中的em子元素
for em in soup.select('.p-name em '):   #soup.select('.p-name em ')得到的是一个列表，遍历它
    content = em.get_text()  #得到子元素的内容
    file.write(content+'\n')  #写入文件并换行
file.close()  #关闭文件
print('爬虫已完成')

注释对代码进行了详细的解释，所以也不在啰嗦了。

some thing just like

发布了12 篇原创文章 · 获赞 43 · 访问量 5439

私信关注

第一个python爬虫小脚本

京东爬虫小脚本

猜你喜欢