IEEE浮点算术

本章描述用于检查浮点数表示和控制程序的浮点环境的函数。本章描述的函数声明在头文件gsl_ieee_utils.h中。

IEEE二进制浮点算法标准定义了单精度数和双精度数的二进制格式。每个数字由三部分组成：一个符号位(s)，一个指数(E)和一个分数(f)。组合(s, E, f)的数值由下式给出：

符号位不是0就是1。指数范围从最小值Emin到最大值Emax，这取决于精度。指数被转换成一个无符号数e，称为有偏指数，通过添加一个偏置参数来存储，

e=E+bias

序列fffff……表示二进制分数f的数字。通过调整指数，使前导数字为1，二进制数字以标准化形式存储。由于标准化数字的前导数字总是1，因此隐式地假定它不需要存储。小于2Emin 的数字以前导零的反标准化形式存储，

这使得p位精度逐渐下降到2Emin-p 。0用特殊指数2Emin-1 编码，无穷用指数2Emax+1 编码。

单个精度数的格式为32位，按如下方式划分:

seeeeeeeefffffffffffffffffffffff

s = sign bit, 1 bit

e = exponent, 8 bits (E_min=-126, E_max=127, bias=127)

f = fraction, 23 bits

双精度数的格式为64位，按如下方式划分:

seeeeeeeeeeeffffffffffffffffffffffffffffffffffffffffffffffffffff

s = sign bit, 1 bit

e = exponent, 11 bits (E_min=-1022, E_max=1023, bias=1023)

f = fraction, 52 bits

能够在位级上研究计算的行为通常是有用的，本库提供了以人类可读的形式打印IEEE表示的函数。

void gsl_ieee_fprintf_float(FILE * stream, const float * x)

void gsl_ieee_fprintf_double(FILE * stream, const double * x)

这两个函数将x所指向的IEEE浮点数的格式化版本输出到流stream中。指针用于间接传递数字，以避免任何不希望的从float到double的提升。输出采用以下形式之一，

NaN

不是一个数字符号

Inf, -Inf

正无穷或负无穷

1.fffff...*2^E, -1.fffff...*2^E

一个标准化的浮点数

0.fffff...*2^E, -0.fffff...*2^E

一种非标准化浮点数

0, -0

正零或负零

输出可以在GNU Emacs Calc模式下直接使用，在输出前加2#表示二进制文件。

void gsl_ieee_printf_float(const float * x)

void gsl_ieee_printf_double(const double * x)

这两个函数将x所指向的IEEE浮点数的格式化版本输出到流stdout。

GSL中的IEEE浮点算术