大きなファイルを効率的に読み取る方法
一部のデータ処理分野では、サイズが数ギガバイト以上になる非常に大きなテキスト ファイルを処理する必要があることがよくあります。Python の組み込みの読み取りおよび書き込み関数を直接使用すると、メモリ不足や速度の極端な低下などの問題により、プログラムがクラッシュしたり、動作が遅くなることがあります。では、大きなファイルを効率的に読み取るにはどうすればよいでしょうか?
1 つの方法は、ブロック読み取りを使用することです。つまり、一度に特定のデータ ブロックを読み取り、処理後に次のデータ ブロックを読み取ります。これにより、メモリ使用量が削減され、速度が向上します。簡単な実装は次のとおりです。
def read_in_chunks(file_object, chunk_size=1024*1024):
"""
分块读取大文件
:param file_object: 文件对象
:param chunk_size: 每块大小
"""
while True