关于NIST随机数测试软件报错问题的补充

NIST随机数测试算法相关测试软件的下载、安装、Cygwin环境配置等等已经有很多博客反复讲述过了,这里不再多说。

但是我发现在我的实际使用过程中遇到了很多意想不到的bug,我也留意到,在相关博客的评论区里,有很多朋友提到了相似的报错内容、相同的困惑。可问题在于CSDN甚至全网都无法找到详细的关于这个算法报错内容的解析。所以这里我尝试总结一下避免错误使用NIST测试软件的Tips,以及部分报错信息的解析。

待测试文件的格式与内容

关于文件格式

Cygwin运行sts-2.1.2算法包时 选择文件格式的提示语如下

Input File Format:
[0] ASCII - A sequence of ASCII 0’s and 1’s
[1]Binary - Each byte in data file contains 8 bits of data

这里主要谈论大家比较常用的[0]ASCII文件

  1. 一般来说,用python或matlab写的算法,导出txt文件是比较方便快捷的。
  2. UTF-8编码的txt文档兼容ASCII。
  3. “A sequence of ASCII 0’s and 1’s”指的不是二进制编码,这个描述指的是所有数据都是二进制数。
  4. 如果采用的是二进制编码文件,请选择第二个选项:Binary。

关于文件内容

  1. 二进制编码的数组可以保证超高精度,不需要担心十进制数值超过matlab/python的整数大小上限以后变为双精度数、导致精度降低。所以生成的随机数数值即使是超级大数也不会影响随机性的判定和测试。
  2. 特殊要求(1):所有二进制数要保证长度相同,如果位数不够,在前面用0补齐。
  3. 特殊要求(2):所有二进制数连续排列,中间不能有空格。
  4. 这里用matlab举例。假设已经生成了一个随机数数组,基于上述要求,导出时不能使用非常快捷的save函数,我们需要手动将数组中的每一个数转为二进制形式后连续写入txt文件。下面我放一段自己的代码,使用的时候请自行更改参数。
    fid = fopen('E:/Final1.txt','w'); 
    %E:/Final1.txt是待检测文件的绝对路径
    for i = 1:1000000
        fprintf(fid, '%s',dec2bin(X(i),32));
    end 
    %1000000是数组长度,32是这个数组中最大的二进制数的长度
    fclose(fid);
    
  5. 一个小建议:生成txt文件以后,可以先打开、缩小来看一看,如果你能看到明显的0、1规律,如下图,那证明你的数组随机性极差,这个算法包无法对你的数组进行测试,最后生成的Finalreport可能是空的0kb,也有可能参数全0。这也是不断报错“igamc underflow”的两大原因之一。
    这样可以目测随机性极差的文件就不需要浪费时间了,建议直接检查算法的正确性。
    二进制txt文件01规律性举例

运行算法时的参数

选择bit流大小和数量

  1. bit流的大小和数量,在很大程度上决定了最后Finalreport能否正常生成。
  2. ./assess 后数值小于1000000时可能无法产生finalreport(即0kb空txt),或是产生全0报告,如下图
    在这里插入图片描述
    其实我这里是有一部分数据的,并不是全0。可以看到明显的对比,下半部分的测试师通过了的。不过数据不够、全0的文件即为上半部分的样子。
  3. 如果数据量不够,./assess 输入较小数值,比如10000,则建议参照此博客的下个部分,采用分段部分测试的方式逐步完成15项检验。
  4. bit流的数量一般要求在10以上比较合理。
  5. 注意:单条bit流的长度 * bit流数量 不能超过你txt文件的数据量,否则同样会不断报错“igamc underflow”!(即第二大报错原因)

选择测试项

根据我个人的尝试,要想一次性完成全部十五项测试,至少需要数量为十万级的随机数,达到百万级更好。
但是部分算法(比如时间戳优化的LCG算法)运算速率很低,产生百万个随机数所需时间太长。那么假设我们只有不到十万个随机数,如果强行跑程序,反而会导致最后报告产生错误。
这里我们建议将15个测试分开为几组来进行测试。
输入文件绝对地址以后你会看到如下指示:

S T A T I S T I C A L T E S T S
_________________________________
[01] Frequency [02] Block Frequency
[03] Cumulative Sums [04] Runs
[05] Longest Run of Ones [06] Rank
[07] Discrete Fourier Transform [08] Nonperiodic Template Matchings
[09] Overlapping Template Matchings [10] Universal Statistical
[11] Approximate Entropy [12] Random Excursions
[13] Random Excursions Variant [14] Serial
[15] Linear Complexity
INSTRUCTIONS
Enter 0 if you DO NOT want to apply all of the
statistical tests to each sequence and 1 if you DO.
Enter Choice:

这里选择0,看到以下指示:

INSTRUCTIONS
Enter a 0 or 1 to indicate whether or not the numbered statistical
test should be applied to each sequence.
123456789111111
      012345

这里的两行数字表示的是1到15,后半段上面的1是十位,下面是个位。在下方对应输入1表示执行该测试,0则表示不执行。

最后,在以下的各个文件夹中查看各部分报告。总的finalreport是没有详细内容的。在这里插入图片描述
目前想到的就是这些,欢迎将漏洞和疑问补充在评论区。我会尝试完善这个回答。

猜你喜欢

转载自blog.csdn.net/weixin_46983031/article/details/115365328