Python爬虫入门实例四之百度、360搜索关键字提交(可自主输入关键字)

写在前面

  本文从百度、360两种搜索引擎介绍关键字的提交爬取信息,在引用例的基础上做了优化,可以自主输入关键字,打印输出提交关键词后的查找内容的字符串长度以及相关的URL。

一.爬取原页面

  以关键词为python为例。

1.百度页面如下

在这里插入图片描述

2.360页面如下

在这里插入图片描述
  小声BB:通过上面对比发现同样是卖课,看来这几个机构给的钱是不一样的呀,某度还是把自己的平台放在了第一位。

二.爬取原理分析

  首先我以查找python为例向大家展示在百度和360搜索页面中URL的结果。

1.百度

在这里插入图片描述

https://www.baidu.com/s?wd=python&tn=78040160_5_pg&ch=8

2.360

在这里插入图片描述
https://www.so.com/s?q=python

  通过上述实践我们可以发现搜索引擎是有其关键词的提交接口的。

百度的关键词接口:
https://www.baidu.com/s?wd=keyword

360的关键词接口:
https://www.so.com/s?q=keyword

  其中keyword就是我们输入的关键字,所以我们只要替换keyword就可以向搜索引擎提交关键词了,即只要构建其URL链接就可以实现对关键词的提取,最后使用len()函数显示提交关键词后的查找内容的字符串长度。

3.使用到的库

import requests

三.完整代码

import requests

#百度搜索
def baiDu():
    key = input("请输入百度搜索关键词:")
    url = "https://www.baidu.com/s?wd="+key
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        print(len(r.text))
        print(r.request.url)
    except:
        print("爬取异常")

#360搜索
def threeSZ():
    key = input("请输入360搜索关键词:")
    url = "https://www.so.com/s?q="+key
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        print(len(r.text))
        print(r.request.url)
    except:
        print("爬取异常")

#调用函数
baiDu()
threeSZ()

  本篇完,如有错误欢迎指出~

引用源自

中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001

猜你喜欢

转载自blog.csdn.net/weixin_44578172/article/details/109349554
今日推荐