Java浮点数

浮点数结构

　　要说清楚Java浮点数的取值范围与其精度，必须先了解浮点数的表示方法，浮点数的结构组成，之所以会有这种所谓的结构，是因为机器只认识01，你想表示小数，你要机器认识小数点这个东西，必须采用某种方法，比如，简单点的，float四个字节，前两个字节表示整数位，后两个字节表示小数位（这就是一种规则标准），这样就组成一个浮点数。而Java中浮点数采用的是IEEE 754标准。

IEEE 754

　　这里就不细说什么是IEEE 754了，就直接讲具体内容，有兴趣的可以自己百度。

float

符号位（S）：1bit

指数位（E）：8bit

尾数位（M）：23bit

一个float4字节32位，分为三部分：符号位，指数位，尾数位。
(1).符号位(S)：最高位（31位）为符号位，表示整个浮点数的正负，0为正，1为负；
(2).指数位(E)：23-30位共8位为指数位，这里指数的底数规定为2（取值范围：0~255）。这一部分的最终结果格式为：2E−1272E−127，即范围-127~128。另外，标准中，还规定了，当指数位8位全0或全1的时候，浮点数为非正规形式（这个时候尾数不一样了），所以指数位真正范围为：-126~127。
(3).尾数位(M)：0-22位共23位为尾数位，表示小数部分的尾数，即形式为1.M或0.M，至于什么时候是1，什么时候是0，则由指数和尾数共同决定。小数部分最高有效位是1的数被称为正规（规格化）形式。小数部分最高有效位是0的数被称为非正规（非规格化）形式，其他情况是特殊值。最终float的值 = (−1)S∗(2E−127)∗(1.M)(−1)S∗(2E−127)∗(1.M)。具体形式如下：

符号	指数部分	指数部分-127	尾数部分	小数部分的最高有效位	形式
1	255	128	非0	没有	NaN
1	255	128	0	没有	负无穷
1	1~254	-126~127	任意	1	正规形式（负数）
1	0	-127	非0	0	非正规形式（负数）
1	0	-127	0	没有	负0
0	0	-127	0	没有	正0
0	0	-127	非0	0	非正规形式（正数）
0	1~254	-126~127	任意	1	正规形式（正数）
0	255	128	0	没有	正无穷
0	255	128	非0	没有	NaN

double

符号位（S）：1bit

指数位（E）：11bit

尾数位（M）：52bit

　　double这里就类似float，只是double的长度更大，所以范围就更大，但规则是一样的。double的值 = (−1)S∗(2E−1023)∗(1.M)(−1)S∗(2E−1023)∗(1.M)。

取值范围

根据表1可知，float的取值范围：
负无穷 —— −2128−2128 ~~~ −2−149−2−149 —— 0 —— 2−1492−149 ~~21282128 —— 正无穷
1). 上面的“——”表示中间不能取值，例如负无穷到−2128−2128中间的值是取不到的（事实上128也是取不到的，只是接近近似值），但这并不是意味着，“~”任意值都能取到的，要注意，浮点数都是有精度的，并不能表示绝对值任意小的值。另外，Java中无穷大表示为：

Float.POSITIVE_INFINITY或Double.POSITIVE_INFINITY//表示正无穷大
Float.NEGATIVE_INFINITY或Double.NEGATIVE_INFINITY//负无穷大
//他们打印的结果：+/-Infinity
float f1 = (float)Math.pow(2,128);//指数>=128的，打印结果：Infinity
//上面要加(float)强制转换，否则编译提示出错，详细可参考前一节：Java变量数据类型
float f2 = (float)Math.pow(2,127);//1.7014118E38
System.out.println(Float.MAX_VALUE);//3.4028235E38
//其他测试，读者可自行测试

2). -149的得来：看上面理论应该是150（指数全0，则指数值 = 0 -127，这个时候尾数取最小，2−232−23，则-127-23 = -150），可不知道为什么是149，我查到的资料是说，全0，全1为特殊值，不作为范围内的值，上面的float的最大最小值Float.MAX_VALUE都是接近21282128）。故值 = (−1)S∗(2−126)∗(2−23)(−1)S∗(2−126)∗(2−23) = +/-2−1492−149

float f3 = (float) Math.pow(2,-149)//1.4E-45，小于-149，结果则为0.0
Float.MIN_VALUE //1.4E-45

double的取值同float：
负无穷 —— −21024−21024 ~~~ −2−1074−2−1074 —— 0 —— 2−10742−1074 ~~2102421024 —— 正无穷
1074 =| (-1022) - (52)|

　　另外，注意表格中，还有NaN，即表示非数值，例如：

System.out.println(0.0/0.0);//打印结果：NaN。注意不能是 0/0
//NaN表示计算错误，具体出现情况，可以参考表中
//Float.NaN或 Double.NaN 也能直接表示NaN，NaN与其他数计算结果均为NaN，除了
Math.pow(Float.NaN,0);//结果为1.0
//另外NaN == NaN; false

浮点数精度

　　精度是由尾数决定的，为什么？由浮点数的值计算公式可知：当指数的最终值为负，虽然这个时候浮点数的值能表示更小，但这个时候仅仅能表示0~1（或-1~0）这个数段的小数，没有实际意义。所以精度主要是看尾数的值。

float

　　float的尾数：23位，其范围为：0~223223，而223=8388608=106.92223=8388608=106.92，所以float的精度为6~7位，能保证6位为绝对精确，7位一般也是正确的，8位就不一定了（但不是说8位就绝对不对了），注意这里的6~7位是有效小数位（大的数你先需要转换成小数的指数形式，例如：8317637.5，其有效小数位：8.3176375E6，七位），而有效位（从第一个不为0的开始数）是7~8位，是包括整数位的，像8317637.5，你不转换，则要从有效位的角度来看，有8位有效位。
　　

System.out.println((float)Math.pow(10,6.92));//注意加float强制转换
//打印结果8317637.5，float只保证7~8位有效位，其余位数舍入

　　不理解的话，可以再这样想：23位，二进制0101……0101，尾数表示小数位，最小为0000……0001（22个0，最后一个1），即2−232−23=1.1920929E-7 ，这是float的最小单元（大概是0.0000001192大小，你想表示比这更小的，比如0.00000001，不可能啊），这是一个7位小数位小数，最小就是这么小，比这个更小的，计算机就无能为力了，比这个更大的，每次通过加这么一个最小单元，直到相等或接近（两个相差一个最小单元的数，它们之间的数也是不能表示的，所以有的7位也是不能精确的，因为最小不是0.0000001，而是比这个稍大）。

double

　　计算方式同float，double的尾数：52位，2−522−52=2.220446049250313E-16，最小是16位，但最小不是1.0E-16，所以精度是15~16，能保证15，一般16位。

/*
         关于 float 4字节 也就是32bit 与 Integer 一样， 3.4E-38 ——3.4E+38，可提供7位有效数字
         */

        float f = 0.12345678f;
        System.out.println(f);    //0.12345678 【正常】， 1.2E-7  >  3.4E-7      

        f = 12345678f;
        System.out.println(f);    //12345678 【正常】， 1.2 E+7  < 3.4E+7

        f = 33444444f;
        System.out.println(f);    // 3.3444444E7 【正常】  3.3E+7 <  3.4E+7

        f = 1.1234567f;
        System.out.println(f);     //1.1234567 【正常】

        f = 12.123456f;
        System.out.println(f);      //12.123456 【正常】

        //---------------

        f = 92345678f;
        System.out.println(f);    //92345680 【溢出】，原因 9.2 E+7  > 3.4E+7

        f = 123456789f;
        System.out.println(f);    //123456792 【溢出】，12.3 E+7 > 3.4 +7

        f = 1234567.1234567f;
        System.out.println(f);    //1234567.1 【溢出】， 超出 7位有效位

        f = 1.123456789f;
        System.out.println(f);     // 1.1234568  7位，【溢出】  超出 7位有效位

        //当 float 的整数位越大，则表示小数位就越小。精度就越不足，溢出的可能性就越高

浮点数结构

IEEE 754

float

double

取值范围

浮点数精度

float

double

猜你喜欢