第一个python爬虫小脚本

京东爬虫小脚本

这两天看了一下,没想到这个小脚本的阅读量挺高的,认真说,我觉得自己写的这篇博客蛮粗糙的,因为是第一篇嘛。为了方便入门的同学尽早掌握爬虫,这里我得把这篇博客完善一下。写爬虫程序一定要会使用Google开发者工具,这个chrome浏览器自带的,F12快捷键就直接出来了,然后选中network面板,再刷新页面,network里面就会对请求信息进行抓取;另外一种方式是安装抓包工具,比如fiddler,不过要对浏览器进行配置,但fiddler功能非常强大,可以对电脑上的所有网络请求信息进行抓取。爬虫的关键是在于分析问题。

() 最近从Java开始转python,因为工作需求,需要做一些爬虫的工作,所以看了一两天的python语法就直接开干了,学习python爬虫直接从一些小例子开始,下面记录一下,希望能对大家有一些参考意义。
爬取目标是京东上的手机信息
在这里插入图片描述
要爬取的手机信息的em元素
爬取的url链接和手机信息如上图。废话不多说,直接上代码:

import requests
from bs4 import BeautifulSoup

url="https://list.jd.com/list.html?cat=9987,653,655"
html=requests.get(url)   #request的get 方法来获取html
html.encoding="utf-8"   #设置编码方式位utf-8,防止乱码
# print(html.text)
soup=BeautifulSoup(html.text,"html.parser") #BeautifulSoup是一个网页解析库,利用它不用写正则就可以实现网页信息的抓取
# print(soup.select('.J_price'))
# print(soup.find_all('em')[35])
file = open('jngdong.txt','w+',encoding='utf-8')   #打开一个文件,w+:如果没有,则创建文件;如果文件存在,则将其覆盖并清空原有内容
#print(soup.select('.p-name em'))  #select css选择器  class为p-name 中的em子元素
for em in soup.select('.p-name em '):   #soup.select('.p-name em ')得到的是一个列表,遍历它
    content = em.get_text()  #得到子元素的内容
    file.write(content+'\n')  #写入文件并换行
file.close()  #关闭文件
print('爬虫已完成')

注释对代码进行了详细的解释,所以也不在啰嗦了。

发布了12 篇原创文章 · 获赞 43 · 访问量 5439

猜你喜欢

转载自blog.csdn.net/weixin_40481076/article/details/101195145