C语言的int, float,double相互转化（从本质上理解可能的问题）

从学了C语言之后，一直习惯于C/C++任意的强制转化，但是C语言的强制转化却总是带来意想不到的后果，在这里，我将从int,float,double的本质上讲解这些可能出现的问题以及解决办法，在下面你将看到：
这里写图片描述
OK，现在好戏开始。

int
- unsigned int: unsigned int所进行的是模数计算，就是正常的二进制相加减，计算方法和十进制加减并无区别，但是unsigned int有着正溢出和负溢出的问题，如下图计算所示：
  
  这一点是我们需要注意的地方。
- int:int所使用的是32位补码，关于补码的运算，在这里就不赘述了，大部分计算机导论的书籍都有相关说明。
- 接下来，要说的就是unsigned int和int的相互转化，请看如下代码：

/* WARNING: This is buggy code */
float sum_elements(float a[],unsigned length)
{
    int i;
    float result=0;

    for(i=0;i<=length-1;i++)
    {
        result+=a[i];
        return result;
    }
}
  
  
   
   1
   
   2
   
   3
   
   4
   
   5
   
   6
   
   7
   
   8
   
   9
   
   10
   
   11
   
   12

这段代码计算一个数组所有元素之和，看起来似乎没什么问题。但是当你的数组为空的时候，length输入0之后，却返回一个存储器错误，这是为什么呢？请看上文关于unsigned int计算的式子，length是unsigned int 类型，进行的是模数运算，只代表正数，如果出先了0000000(这里有32个0)-00000..01(31个0，1个1)=111…11111(32个1)=UMAX。一个本该为-1的数变成了无符号数最大值，当然，当i取任何不为0的数都发生了非法访问，自然出现了存储器错误，并且任何数都小于UMAX，就会出现判别式永远为真，出现死循环。解决这个问题的方法有两种，做一个判断，当传入length<1,直接返回0.或者，在之前就将length转化为int。

浮点数（float,double的理解）
- 什么是定点数，定点数有什么缺点：
  我们用二进制数表示整数，我们也想用二进制表示小数。自然而然，我们会像十进制的小数一样，在二进制上加上小数点，例如1.00111112,
  
  但是这样的二进制会出现什么样的问题呢？请看下面的二进制小数

整数部分	小数部分	二进制（Representation）
5	3/4	101.112

大家观察一下，二进制小数有什么特点。
只能准确的表示x/2k只能近似，请看下面的小数

十进制小数	二进制（Representation）
1/3	0.01010101[01]…2

[0011]表示无限循环小数
为什么会出现这样的计算结果，请看下面1/3 和 1/5是如何计算的。

2 - 2 + 2 - 4 + 2 - 6 . . . . . + 2 - 2 n = \sum n = 1 \infty 2 - 2 n = lim n \to + \infty 1 4 ( 1 - 2 - 2 n ) 1 - ( 2 - 2 ) = 1 3

1/5就复杂了点

2 - 3 + 2 - 4 + 2 - 7 + 2 - 8 + 2 - 11 + 2 - 12 + . . . . . . . + 2 1 - 4 n + 2 - 4 n = \sum n = 1 \infty 2 1 - 4 n + \sum n = 1 \infty 2 - 4 n = lim n \to + \infty 1 8 ( 1 - 2 1 - 4 n ) 1 - ( 2 - 4 ) + lim n \to + \infty 1 16 ( 1 - 2 - 4 n ) 1 - ( 2 - 4 ) = 2 15 + 1 15 = 1 5

可见，当小数不能表示为

x 2 k

s:表示符号位，只用一个bit表示
M:表示尾数（significand)(frac)也表示小数位，即能准确表示小数位
E:表示指数位，简单来说就是位数的多大。
那么，我们来看一下，我们最常用的float,double是怎么组成的：
这里写图片描述

明显的看出，float有8位指数位，23位尾数位。指数最大可表示的范围为-127～126，但浮点数的指数计算有一点技巧要用到：E-Bias。
下面是浮点数所表示的一个范围：
这里写图片描述
大家可以清楚的看到浮点数随着大小的不同被分成好几种，接近0的被称为Denormalized，比较大的数字被分为Infinity,接下来介绍这几种数字的特征：
Normalized：这是最常见的一种情况，指数位EXP不为0(不小)，EXP不全为1（不大）。此时，阶码（这个2E-1,k表示指数位的位数，float单精度即32位浮点为127，double双精度为1023。故float单精度的E范围为-126~127，对于双精度为-1022~+1023。
而对于尾数位，即小数位：相当于得到的数为1.M(M表示尾数位)
下面就到了重点了，这也是浮点数经常被大家忽略的地方。
Denormalized:当阶数E全为0的时候，被称为Denormalized，那么它的指数位就变成了E=1-Bias, 之所以不用-Bias,而用1-Bias,是为了实现与Normalized的数实现完美过渡，具体如何过渡的图片会在下面给出。
而Denormalized的尾数有什么特点呢：如果frac为0，说明该数为0，但是不知道是+0还是-0。因为，前面的符号位未知。如果frac不为0的话，那么实际的数字表示为0.M(M为尾数位)，记住，此时前面是0.，因为只有是0.最终才能接近0
Infinity:当指数位全为1，frac尾数位为0的时候表示Infinity(可以表示无穷大)，分别取符号位为1或者0，表示正无穷或负无穷。可以满足Infinity相乘或除，表示溢出。
NaN:not a number,即指数位全为1，frac尾数位不全为0.
一张图可以表示Normailized，Denormalized，Infinity,NaN
这里写图片描述
这张图说明，从Denormalized到NaN有什么变化：

可以看到在Denormalize使用E=1-Bias,并且M前取0，实现了从Largest denorm到Smallest norm完美过渡。
- 浮点数的rounding
上文提到无论是定点数还是浮点数都只能表示有限的位数，那么舍入就显的是一个很重要的环节了。浮点数采取的舍入方法，小于一半的向下舍入，大于一半的向上舍入，在中间的，close to even(向偶数舍入)，下面是几个二进制例子：
Format A:
There are k=3 exponent bits. The exponent bias is 3.
There are n=4 fraction bits.
Format B:
There are k=4 exponent bits. The exponent bias is 7.
There are n=3 fraction bits.
要求给出A，将A转化为B
前一半为A，后一半为B

位	值	位	值
0110000	1	0111000	1
1011110	712

可以看出第二，三，四的问题的关键在于进位
三的A为：0.11001，即到B先转化为1.1001，明显B的frac只有三位，所有根据close to even,需要接近偶数，所以，round down：1.100,符合。
比较有问题的是最后一个：000 0001 。首先，000说明是Denormalize,则该数表示为0.0001*2−2,由于B是4位exp，所以不会是最小的数，所以由Denormalize->Normalize,答案也为1/64
为什么要选择，close to even呢？如果全部的数字都为0.01要精确到小数点后一位的话，如果是四舍五入，那么最后的误差将是0.01*n，但如果是close to even的，认为偶数和奇数是等概率出现，就很小的避免误差往一边倒的情况。

扫描二维码关注公众号，回复： 4655594 查看本文章

浮点数的计算
首先先来两个公式
x+f）
但是3.14+（1e10-1e10）=3.14
le20*(le20-le20)=0.0
le20*le20-le20*le20=NaN，由于溢出的关系，可见在数字大的情况下不满足加法结合律和乘法分配律

最后，来看看double,float和int相互转化可能的问题
这里写图片描述
判断以下式子是否正确：

A.正确，因为double的frac为32位和int相同，不会丢失信息。
B.错误，因为float的frac为23位小于int,会丢失信息。
C.错误。double比float精度高。从double转float会丢失信息。
D.正确。
E.正确。符号数正负转化只取决于符号位。
F.正确。浮点数在进行运算的时候会全部转化为浮点数。
G.正确。
这里写图片描述
H.错误。如果f+d溢出，结果为0.

C语言的int, float,double相互转化 （从本质上理解可能的问题）

猜你喜欢

C语言的int, float,double相互转化（从本质上理解可能的问题）