【汇编语言与计算机系统结构笔记03】浮点数的计算机表示，IEEE 754，舍入（rounding），C语言中的浮点数

Float F = 15213.0;

// 二进制
15213_10 = 11101101101101_2

// 二进制向右移13位，再乘2^13
1.1101101101101_2 * 2^13

// 则其尾数为
M = 1.1101101101101_2
// 取小数部分，在计算机中存储为
frac = 11011011011010000000000

// 其阶码为
E = 13
Bias = 127
// 阶码在计算机中存储为，加上偏置量
Exp = 140 = 10001100

最终，15213.0在计算机中的存储为（第二行）：

Hex	4	6	6	D	B	4	0	0
Binary	0100	0110	0110	1101	1011	0100	0000	0000
140	_100	0110	0____
15213			(1)110	1101	1011	01__

上表中，M取值一定位1.x，因此15213行的首个1省略。

非规格化浮点数（Denormalized）

满足条件：exp全为0。
其他域的取值
- E = -Bias + 1；
- M = 0.xxx…x_2
- xxx…x：bits of frac

为什么Bias取2^{e-1} - 1（e = exp的域的位数）？或者说，为什么在规格化浮点数情况下不允许exp取全0？

答：在不考虑符号位的情况下，考虑规格化浮点数的最小取值：首先E应该取1（exp为1减去偏移量即1-Bias），frac取1.0…。如果有数字，比这个数还小一点点，则只能将frac小数点再左移。此时，则需要exp全0这种表达，表示此时frac是0.开头，而非1.开头。0.开头即非规格化浮点数。

非规格化浮点数示例

exp = 000…0，frac = 000…0
- 表示0，注意有+0与-0（由s位决定）。
exp = 000…0，frac不等于0
- 表示“非常接近”于0的浮点数；
- 会逐步丧失经度，称为“Gradual underflow”。

一些特殊值

满足条件：exp全为1。

一些特殊值具体示例

exp = 111…1，frac = 000…0
- 表示无穷，可用于表示数值的溢出
- 有正无穷与负无穷之分：1.0 / 0.0 = +∞；-1.0 / 0.0 = -∞
exp = 111…1，frac 不等于全0
- Not-a-Number（NaN）
- E. g. sqrt(-1), ∞ - ∞, ∞ * 0

各种浮点数类型在数轴上的相对位置

NaN	-∞		-Normalized	-Denorm		-0	+0		+Denorm	+Normalized		+∞	NaN

实例：一种“小”浮点数

8位浮点数表示：exp域宽度为4 bits，frac域宽度为3 bits。则，其偏置量的值为2^(4-1) - 1 = 7.
其他规则符合IEEE 754规范。

取值范围如下表。

s	exp	frac	E	value
0	0000	000	-6	0
0	0000	001	-6	1/8 * 1/64 = 1/512
0	0000	010	-6	2/8 * 1/64 = 2/512
	…
0	0000	110	-6	6/8 * 1/64 = 6/512
0	0000	111	-6	7/8 * 1/64 = 7/512
0	0001	000	-6	8/8 * 1/64 = 8/512
0	0001	001	-6	9/8 * 1/64 = 9/512
	…
0	0110	110	-1	14/8 * 1/2 = 14/16
0	0110	111	-1	15/8 * 1/2 = 15/16
0	0111	000	0	8/8 * 1 = 1
0	0111	001	0	9/8 * 1 = 9/8
0	0111	010	0	10/8 * 1 = 10/8
	…
0	1110	110	7	14/8 * 128 = 224
0	1110	111	7	15/8 * 128 = 240
0	1111	000	n/a	inf

可以看出，在不考虑符号位s时，较好通过浮点数二进制表示方式比较大小。

浮点数的一些编码特性

（几乎）可以直接使用无符号整数的比较方式；
反例：
- 必须先比较符号位
- 考虑+0、-0的特例
- 还有NaN的问题
（不考虑符号位的话）NaN比其他值都大
实际的比较结果如何？（自行实现）

其他情况都可以直接使用无符号整数的比较方式：

规格化 vs. 非规格化
规格化 vs. 无穷

Rounding（舍入）

给定一个实数，如何给出其浮点数表示？

基本流程：

首先计算出精确值；
然后将其转换为所需的精度；
可能会溢出（如果指数绝对值很大）；
可能需要完成舍入（rounding）操作。

各种舍入模式

	1.40	1.60	1.50	2.50	-1.50
Zero	1	1	1	2	-1
Round down	1	1	1	2	-2
Round up	2	2	2	3	-1
Nearest Even(default)	1	2	2	2	-2

Nearest Even为向最近的偶数舍入（并非四舍五入）。是计算机内默认的舍入方式。

向偶数舍入（Round-To-Even）

这是计算机内默认的舍入方式，也称为“（将0.5）向最接近值的舍入”。

其它方式会产生系统误差（statistically biased）

关键的设计决策的是确定两个可能结果的中间数值的舍入，确保舍入后的最低有效数字是偶数。

E.g., round to nearest hundredth

1.2349999	1.23	(Less than half way)
1.2350001	1.24	(Greater than half way)
1.2350000	1.24	(Half way - round up)
1.2450000	1.24	(Half way - round down)

对于二进制而言

实例如下表，舍入到小数点后2位：

Value	Binary	Rounded	Action	Rounded Value
2 3/32	10.00 011	10.00	(<1/2 - down)	2
2 3/16	10.00 110	10.01	(>1/2 - up)	2 1/4
2 7/8	10.11 100	11.00	(1/2 - up)	3
2 5/8	10.10 100	10.10	(1/2 - down)	2 1/2

可以看出，“Even”意味着如下规则：

只有当被舍位为100…（如表中后两行）时，才考虑“Even”舍入规则；
规则为，要让舍入后的二进制数，最低位为0。

具体步骤

将数值规格化（前导1）
舍入（round to even）以便符合尾数位数需求
后调整

实例

将8位无符号数转换为8位浮点数（exp域宽度为4 bits，frac域宽度为3 bits）

首先，规格化：

Value	Binary	Fraction	Exponent
128	10000000	1.0000000	7
15	00001101	1.1010000	3
17	00010001	1.0001000	4
19	00010011	1.0011000	4
138	10001010	1.0001010	7
63	00111111	1.1111100	5

接下来，舍入：

Value	Fraction	Incr?	Rounded
128	1.000 0000	N	1.000
15	1.101 0000	N	1.101
17	1.000 1000	N	1.000
19	1.001 1000	Y	1.010
138	1.000 1010	Y	1.001
63	1.111 1100	Y	10.000

其中，17、19由于是舍去1+0*，因此要求Rounded之后以0结尾。

最后，调整：

Value	Rounded	E	Adjusted	Result
128	1.000	7		128
15	1.101	3		15
17	1.000	4		16
19	1.010	4		20
138	1.001	7		134
63	10.000	5	to 1.000, E = 6	64

C语言中的浮点数

float 单精度浮点数；
double 双精度浮点数。

当int（32位宽），float，与double等类型间进行转换时，基本的原则如下：

double或float转换为int：
- 尾数部分截断；
- 如果溢出或者浮点数是NaN，则转换结果没有定义，通常置为Tmin or Tmax。
int转换为double：
- 能够精确转换。
int转换为float：
- 不会溢出，但是可能被舍入。

Floating Point Puzzles

以下判断是否成立，如果不成立请给出反例。

int x = foo();
float f = bar();
double d = foobar();

假设d与f都不是NaN。

x == (int)(float) x

不成立，float有效位数不够。

x == (int)(double) x

成立。

f == (float)(double) f

成立。

d == (float) d

不成立。

f == -(-f)

成立。

2/3 == 2/3.0

不成立。

因为2/3是整数运算，等于0，而右侧是浮点数运算。

d < 0.0 infer ((d*2) < 0.0)

成立。因为浮点数是逐渐丧失精度，可以变成负无穷。

d > f infer -f > -d

成立。

d * d >= 0.0

成立。不存在有符号整数突变为负数的情况。

(d+f) - d == f

不成立。由于f的精度低，因此，d+f时f容易被忽略。

例题

给定一个浮点格式，有k位指数和n位小数，对于下列数，写出阶码E、尾数M、小数f和值V的公式。另外，请描述其位表示。

问0：E、M与f、V

$Bias = 2^{k-1} - 1$

$E = exp - Bias$

$V = (-1)^s M 2^E$

E最大值为 $2^k - 1 - (2^{k-1} - 1) = 2^{k-1}$ 。

问1：数5.0

5.0			// 转换为二进制 ==>
101			// 进位，直到取最左1 ==>
M 	= 1.01	// 此时，E = 2
frac= 01 0*	// 共n位
exp	= E + Bias
	= 2 + (2^(k-1) - 1)

则，位的描述为：

s	exp	frac
0	bin(2 + 2^(k-1) - 1)	01 0000…(共n位, 开头为01, 0补其他位)

问2：能够被准确描述的最大奇数

参考上文实例：一种“小”浮点数中的表格，思路如下：

frac有n位，则M可视为 $1+\frac{1}{2^n} \times C$ ；

其中，C是整数，由frac决定，即 $C=oct(frac)$ ；

并且C满足 $0 \le C \le 2^n - 1$ 。

默认V为正数（即s=0），则可将V表示为：

$V=(1+\frac{1}{2^n} \times C) \times 2^E = 2^E + 2^{E-n} \times C$

则现在的任务有两个：

不能有小数（C为小数，则E不可以大于n）；
是奇数（ $2^E$ 是奇数则过于浪费，因此使 $2^{E-n} \times C$ 为奇数）。

下面分类讨论：

情况一：E可以取到n时，

即 $2^{k-1} \ge n$ 时，

E取n，C取其能取的最大奇数，即1* 01(保证最右两位是01, 其他位为1)。

情况二：E*取不到n时，

即 $2^{k-1} \le n$ 时（不太可能），

E取最大即 $2^{k-1}$ ，而C取 $2^{n-E}$ （为了约掉后一项小数）。

问3：最小的正规格化数

exp为0* 1，frac为0*。

E取最小，即 $exp_{min} - Bias = 2^0 - (2^{k-1} - 1)$ 。

十进制即为 $1 \times 2^{(2^0 - (2^{k-1} - 1))} = 2^{2 - 2^{k-1}}$ 。

PiperNest (同公众号)

发布了132 篇原创文章 · 获赞 36 · 访问量 1万+

私信关注