获取百度搜索结果的真实url以及摘要和时间 - 代码天地

获取百度搜索结果的真实url以及摘要和时间

其他 2018-08-10 16:23:25 阅读次数: 0

利用requests库和bs4实现，demo如下：

#coding:utf-8
import requests
from bs4 import BeautifulSoup
import bs4
import re
headers = {
    'User-Agent':'Chrome/68.0.3440.106'
}

def getHTMLText(url):
    try:
        r=requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ''
'''
def getHref(html):
    soup=BeautifulSoup(html,'lxml')
    for node in soup.find_all()
'''
def bdurlCode(url):
    res = requests.get(url, allow_redirects=False)
    Real_url = res.headers['location']
    return Real_url

def fillList(ulist,html):
    soup=BeautifulSoup(html,'lxml')
    for node in soup.find_all('div', {'class': 'result c-container '}):
        abstract_node = node.find('div',{'class':'c-abstract'})
        cite_node = node.find('a', {'class': 'c-showurl'})
        time_node=node.find('span',{'class':' newTimeFactor_before_abs m'})
        if not time_node:continue
        url=cite_node['href']
        url=bdurlCode(url)
        abstract=abstract_node.text
        time=time_node.text
        ulist.append([url,time,abstract])
    print(ulist)
    print(len(ulist))

uinfo=[]
url="https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E6%98%8E%E7%95%A5%E6%95%B0%E6%8D%AECTO&oq=%25E6%2598%258E%25E7%2595%25A5%25E6%2595%25B0%25E6%258D%25AE&rsv_pq=9429009d00000f0c&rsv_t=0278viP4h51Y2xMneo8a0HfaOkqnhW8wmti1KAz4ddKuKCUjeKDsh9yB1YM&rqlang=cn&rsv_enter=1&inputT=894&rsv_sug3=17&rsv_sug1=9&rsv_sug7=100&rsv_sug2=0&rsv_sug4=1273&rsv_sug=1"
html=getHTMLText(url)
fillList(uinfo,html)

猜你喜欢

转载自www.cnblogs.com/elpsycongroo/p/9455703.html

获取百度搜索结果的真实url以及摘要和时间

Python+selenium+PhantomJS获取百度搜索结果真实链接地址

百度搜索结果URL参数含义解析

百度搜索结果爬虫

百度搜索 URL 参数

Python爬取百度搜索的标题和真实URL的代码和详细解析

python采集百度搜索结果带有特定URL的链接

从百度搜索结果列表里点击 CSDN 博客时 url 参数的含义

获取百度搜索结果内容的函数方法 - 正则

【爬虫高阶】使用xpath语法获取任意关键词的百度搜索结果

使用HtmlUnit抓取百度搜索结果

如何让百度搜索结果显示网站 logo

屏蔽百度搜索结果页的推送广告

百度搜索结果HTML分析

python百度搜索url爬取图片

使用selenium爬取百度搜索的URL

百度搜索

#百度搜索#让网站首页在百度搜索结果中出图的小技巧

获取百度搜索的关键词

jq获取百度搜索下拉框

httpclient获取百度真实url(java)

百度搜索url编码解密(url encode decode)

如何去除百度搜索结果中百家号内容

百度搜索结果屏蔽百家号方法

百度搜索引擎结果网址参数上次搜索词(bs)

调用百度搜索API

类似百度搜索提示

类百度搜索提示

屏蔽百度搜索热点

1.20 实现百度搜索

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)