快速生成大量随机大小的文件 - 代码天地

快速生成大量随机大小的文件

其他 2019-03-10 13:34:46 阅读次数: 0

要生成大量随机大小的文件，最简单的方法是for循环N次。

例如，生成100W个0-16K大小的小文件(尝试时请改小一点数量，不然时间要很久)：

tmp_dir=/tmp/temp

for i in {1..1000000};do
    dd if=/dev/zero of=$tmp_dir/${i}.log bs=`shuf -n 1 -i 0-16`k count=1 &>/dev/null
done

这里使用dd命令从/dev/zero中取数据填充小文件，其中tmp_dir变量是存放大量小文件的目录，文件的随机大小由shuf命令生成。

但是这样会非常的慢，不仅占用大量IO，操作系统还繁忙地open、close文件描述符。这样的创建方式效率极低。

为了不频繁open、close文件描述符，可以直接将创建的文件放进压缩包中，比如cpio、tar（但不要加数据压缩功能，如zip、xz等，因为压缩会占用大量cpu进行计算），等给定数量的文件创建完后再解压这个压缩包。这种方式在shell中实现起来比较复杂。

更好的方式是使用split命令，它可以将文件按给定大小均匀切分成小文件。这里可以使用/dev/zero作为数据源。

因为split只能切分成等大小的文件，所以大小无法随机，只能在一定数量的循环下，多次切分成等随机大小的文件。正如下面的for和shuf。

tmp_dir=/tmp/temp

for i in {1..100};do
    dd bs=10000 count=8192 if=/dev/zero |\
    split -b `shuf -n 1 -i 1-16`k -a 5 -d - "$tmp_dir/$i-"
done

每次循环中，dd每次生成8192*10000=8.2M的数据源，这8.2M的数据供split进行分割，分隔的每个文件都由shuf确定，比如某次shuf的值为5，那么8.2M的数据全部切分成5k大小的文件共16000个小文件。这样的操作循环100次。

这样的方式非常快，但是只循环了100次，shuf的随机数分配不够均匀，所以无法控制文件的数量，比如上面的命令可能会生成200W个文件，如果运气差可能生成400W个文件。

改成下面的，循环次数增加一些，每次数据源大小小一点：

for i in {1..10000};do
    dd bs=100 count=8192 if=/dev/zero |\
    split -b `shuf -n 1 -i 1-16`k -a 3 -d - "$i-"
done

生成100W个文件大概需要5分钟(普通固态下)。同样的，文件数量不可控制。

猜你喜欢

转载自www.cnblogs.com/f-ck-need-u/p/10504962.html

快速生成大量随机大小的文件

.NET使用Bogus生成大量随机数据

Python 超快生成大量随机数的方法

Oracle快速生成大量测试数据

mybatismapper文件多层循环生成大量数据

Linux如何快速生成大文件

linux快速生成大文件

Oracle存储过程生成大量不重复的随机数

数据库基准测试：database bencnmark --生成大量随机测试数据

MATLAB随机生成大小也是随机的矩形（地形图二）

MATLAB随机生成大小也是随机的矩形（地形图一）

一条SQL快速生成大量的测试数据

在oracle中生成大量数据

MySQL自动生成大量数据

c/c++利用time(),rand()生成随机数、生成单一随机数、生成大量有序随机数

Linux使用dd命令快速生成大文件

fromcharcode()方法随机生成大小写字母（验证码）

js 随机生成大小写字母数字16位数

生成大量插入语句，并将语句写入txt文件中

随机生成大写字母

go生成大整数随机数

log4js 生成大量的文件句柄，且没有释放，too many open file，最终宕机

hive shell脚本生成大量测试数据

MySQL从库生成大量小的relay log案例模拟

使用dd命令快速生成大文件或者小文件的方法

快速生成指定大小的空文件

快速删除大量文件

java快速生成大文件的MD5算法 MD5Util java

linux dd urandom 生成指定大小随机内容文件

生成大的报告和文件流

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)