第八章:数据压缩与归档-bz2:bzip2压缩-内存中的一次性操作

8.3 bz2:bzip2压缩
bz2模块是bzip2库的一个接口,用于压缩数据以便存储或传输。为此,它提供了3个API:
“一次性”压缩/解压缩函数,用以处理大数据块(blob)。
迭代式压缩/解压缩对象,用来处理数据流。
一个类似文件的类,支持像读写为压缩文件一样读写压缩文件。

8.3.1 内存中的一次性操作
使用bz2最简单的方法是将所有要压缩或解压缩的数据加载到内存中,然后分别使用compress()和decompress()来完成转换。

import bz2
import binascii

original_data = b'This is the original text.'
print('Original     : {} bytes'.format(len(original_data)))
print(original_data)

print()
compressed = bz2.compress(original_data)
print('Compressed   : {} bytes'.format(len(compressed)))
hex_version = binascii.hexlify(compressed)
for i in range(len(hex_version) // 40 + 1):
    print(hex_version[i * 40:(i + 1) * 40])

print()
decompressed = bz2.decompress(compressed)
print('Decompressed : {} bytes'.format(len(decompressed)))
print(decompressed)

压缩数据包含非ACSII字符,所以在打印之前需要先转换为其十六进制表示。在这些例子的输出中,我们调整了十六进制表示,使每行最多有40个字符。
运行结果:
在这里插入图片描述
对于短文本,压缩版本的长度可能打打超过原来的文本。具体的结果取决于输入数据,不过观察压缩开销很有意思。

import bz2

original_data = b'This is the original text.'

fmt = '{:>15} {:>15}'
print(fmt.format('len(data)','len(compressed)'))
print(fmt.format('-' * 15,'-' * 15))

for i in range(5):
    data = original_data * i
    compressed = bz2.compress(data)
    print(fmt.format(len(data),len(compressed)),end='')
    print('*' if len(data) < len(compressed) else '')

末尾是*字符的输出行表示这一行压缩数据比原输入数据更长。
运行结果:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43193719/article/details/89191885