GPT4.0写爬虫,连bug都没有

灵感来源

看到很多大佬在发这个,打开一看是个小光子,付费课程,所以我觉得写一个简单的免费教程。

在这里插入图片描述
在这里插入图片描述

简单示例

我们用一个简单的来介绍,比如爬取这位博主:

https://blog.csdn.net/AOAIYI/article/details/130659496

在这里插入图片描述

定义目标

下面我用自己的4.0镜像来做尝试:GPT4.0 ,如下进行提问:
在这里插入图片描述
这样第一次问,当然是抓取不对的。GPT实际上不具备爬取功能,但是我要给他赋予爬虫技能,接下来就是给他更详细的星系。

灌输详细内容

手动打开检查,把重要的HTML部分灌输给GPT4:
在这里插入图片描述
返回大致如下,可以看到代码中让我自己粘贴进去,这显然不符合正常爬虫操作。

在这里插入图片描述

继续追加提问

让它直接添加获取这部分源码:
在这里插入图片描述
然后复制下面的完整代码即可:

import requests
from bs4 import BeautifulSoup

url = 'https://blog.csdn.net/AOAIYI/article/details/130659496'
headers = {
    
    
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)
html = response.text

soup = BeautifulSoup(html, 'html.parser')

title = soup.find('h1', class_='title-article').text.strip()
read_count = soup.find('span', class_='read-count').text.strip()
collection_count = soup.find('span', class_='get-collection').text.strip()

print(f'标题:{
    
    title},阅读数:{
    
    read_count},收藏数:{
    
    collection_count}')

输出如下:

标题:机器学习:基于Kmeans聚类算法对银行客户进行分类,阅读数:1065,收藏数:64

更多玩法

解锁更多玩法,自行研究,这里我只是刚好抽空测试一下效果,后续有空继续写测试文。

猜你喜欢

转载自blog.csdn.net/weixin_46211269/article/details/130689902
今日推荐