边学边敲边记（二）：深度/广度优先算法、url去重、编码 - 代码天地

边学边敲边记（二）：深度/广度优先算法、url去重、编码

其他 2018-08-13 10:06:11 阅读次数: 0

今天给大家分享的是，Python里深度/广度优先算法实现，以及url去重基本策略和编码问题。

'''
date : 2018.7.29
author : 极简XksA
goal : 深度/广度优先算法、url去重、编码
'''


# 深度优先： 根左右 遍历
# 广度优先： 层次遍历，一层一层遍历

# 深度优先： 根左右 遍历 (递归实现)
def depth_tree(tree_node):
    if tree_node is not None:
        print(tree_node._data)
        if tree_node._left is not None:
            return depth_tree(tree_node._left)  # 递归遍历
        if tree_node._right is not None:
            return depth_tree(tree_node._right)  # 递归遍历


# 广度优先： 层次遍历，一层一层遍历(队列实现)
def level_queue(root):
    if root is None:
        return
    my_queue = []
    node = root
    my_queue.append(node)  # 根结点入队列
    while my_queue:
        node = my_queue.pop(0) # 出队列
        print(node.elem)   # 访问结点
        if node.lchild is not None:
            my_queue.append(node.lchild)    # 入队列
        if node.rchild is not None:
            my_queue.append(node.rchild)    # 入队列


# 爬虫去重策略
# 1.将访问过的ur保存到数据库中
# 2.将访问过的ur保存到set中,只需要o(1)的代价就可以查询url
#       10000000*2byte*50个字符/1024/1024/1024=9G
# 3.url经过md5等方法哈希后保存到set中
# 4.用 bitmap方法,将访问过的ur通过hash函数映射到某一位
# 5. bloomfilter方法对 bitmap进行改进,多重hash函数降低冲突
(具体解释在后面的 边敲边学边记 中边学边了解)

# 字符串编码
# unicode 编码表示范围最大，但占用内存大，一般使用utf-8格式编码
# 在win下默认为 gb2312编码，在linux 下默认为 utf-8
# encode : 把unicode 编码 成其他格式编码（参数指明把字符串转换成什么格式）
# decode : 把其他格式编码成 unicode编码（参数指明原字符串是什么格式）

猜你喜欢

转载自blog.csdn.net/qq_39241986/article/details/81607757

边学边敲边记（二）：深度/广度优先算法、url去重、编码

边学边敲边记之爬虫系列(三)：url去重策略及实现

Flink边学边记

MySQL边学边记

边学边敲边记（一）：正则表达式基础入门

边学边敲边记之爬虫系列(九)：Item+Pipeline数据存储

边学边敲边记之爬虫系列(四)：Scrapy框架搭建

node-egg边学边记

程序人生——边学边记

（持续更新）边学边记，英......

计算机组成原理边学边记

coding边学边记之C++

bzoj 2169 连边——去重的思想

LaTeX边学边用

Docker 边学边用

有向图的深度优先生成树 ——— 树枝边，前向边，后向边，横叉边的辨析

边玩边学边学边忘之AngularJs

React 边学边积累<前言>

Async/Await 边学边练

bugku杂项解题（边学边更新）

边玩边学PCB

Dijkstra最短路 (反向做+去重边)HDU - 2680

帅小伙竟边用AI边敲代码(spacedesk)

Spring常用注解 - 可能会不断更新-- 边学边记

Graphics—边标志算法

# Dinic重边处理模板

拓扑排序判断重边

【深度优先搜索】|DFS|遍历算法|边权为1的深度遍历思想|解决常见的图和树的问题

(连载)边喝咖啡边学Unity——第二章预备知识体系(2)

边压缩边传输

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)