8.3 bz2:bzip2压缩
bz2模块是bzip2库的一个接口,用于压缩数据以便存储或传输。为此,它提供了3个API:
“一次性”压缩/解压缩函数,用以处理大数据块(blob)。
迭代式压缩/解压缩对象,用来处理数据流。
一个类似文件的类,支持像读写为压缩文件一样读写压缩文件。
8.3.1 内存中的一次性操作
使用bz2最简单的方法是将所有要压缩或解压缩的数据加载到内存中,然后分别使用compress()和decompress()来完成转换。
import bz2
import binascii
original_data = b'This is the original text.'
print('Original : {} bytes'.format(len(original_data)))
print(original_data)
print()
compressed = bz2.compress(original_data)
print('Compressed : {} bytes'.format(len(compressed)))
hex_version = binascii.hexlify(compressed)
for i in range(len(hex_version) // 40 + 1):
print(hex_version[i * 40:(i + 1) * 40])
print()
decompressed = bz2.decompress(compressed)
print('Decompressed : {} bytes'.format(len(decompressed)))
print(decompressed)
压缩数据包含非ACSII字符,所以在打印之前需要先转换为其十六进制表示。在这些例子的输出中,我们调整了十六进制表示,使每行最多有40个字符。
运行结果:
对于短文本,压缩版本的长度可能打打超过原来的文本。具体的结果取决于输入数据,不过观察压缩开销很有意思。
import bz2
original_data = b'This is the original text.'
fmt = '{:>15} {:>15}'
print(fmt.format('len(data)','len(compressed)'))
print(fmt.format('-' * 15,'-' * 15))
for i in range(5):
data = original_data * i
compressed = bz2.compress(data)
print(fmt.format(len(data),len(compressed)),end='')
print('*' if len(data) < len(compressed) else '')
末尾是*字符的输出行表示这一行压缩数据比原输入数据更长。
运行结果: