C语言的int, float,double相互转化 (从本质上理解可能的问题)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/github_33873969/article/details/78040129

从学了C语言之后,一直习惯于C/C++任意的强制转化,但是C语言的强制转化却总是带来意想不到的后果,在这里,我将从int,float,double的本质上讲解这些可能出现的问题以及解决办法,在下面你将看到:
这里写图片描述
OK,现在好戏开始。

  • int
    • unsigned int: unsigned int所进行的是模数计算,就是正常的二进制相加减,计算方法和十进制加减并无区别,但是unsigned int有着正溢出和负溢出的问题,如下图计算所示:
      这里写图片描述
      这一点是我们需要注意的地方。
    • int:int所使用的是32位补码,关于补码的运算,在这里就不赘述了,大部分计算机导论的书籍都有相关说明。
    • 接下来,要说的就是unsigned int和int的相互转化,请看如下代码:
/* WARNING: This is buggy code */
float sum_elements(float a[],unsigned length)
{
    int i;
    float result=0;

    for(i=0;i<=length-1;i++)
    {
        result+=a[i];
        return result;
    }
}
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

这段代码计算一个数组所有元素之和,看起来似乎没什么问题。但是当你的数组为空的时候,length输入0之后,却返回一个存储器错误,这是为什么呢?请看上文关于unsigned int计算的式子,length是unsigned int 类型,进行的是模数运算,只代表正数,如果出先了0000000(这里有32个0)-00000..01(31个0,1个1)=111…11111(32个1)=UMAX。一个本该为-1的数变成了无符号数最大值,当然,当i取任何不为0的数都发生了非法访问,自然出现了存储器错误,并且任何数都小于UMAX,就会出现判别式永远为真,出现死循环。解决这个问题的方法有两种,做一个判断,当传入length<1,直接返回0.或者,在之前就将length转化为int。

  • 浮点数(float,double的理解)
    • 什么是定点数,定点数有什么缺点:
      我们用二进制数表示整数,我们也想用二进制表示小数。自然而然,我们会像十进制的小数一样,在二进制上加上小数点,例如1.001111122,
      这里写图片描述
      但是这样的二进制会出现什么样的问题呢?请看下面的二进制小数
整数部分 小数部分 二进制(Representation)
5 3/4 101.1122

大家观察一下,二进制小数有什么特点。
只能准确的表示x/2kx/2k只能近似,请看下面的小数

十进制小数 二进制(Representation)
1/3 0.01010101[01]…22

[0011]表示无限循环小数
为什么会出现这样的计算结果,请看下面1/3 和 1/5是如何计算的。

22+24+26.....+22n=n=122n=limn+14(122n)1(22)=132−2+2−4+2−6.....+2−2n=∑n=1∞2−2n=limn→+∞14(1−2−2n)1−(2−2)=13

1/5就复杂了点

23+24+27+28+211+212+.......+214n+24n=n=1214n+n=124n=limn+18(1214n)1(24)+limn+116(124n)1(24)=215+115=152−3+2−4+2−7+2−8+2−11+2−12+.......+21−4n+2−4n=∑n=1∞21−4n+∑n=1∞2−4n=limn→+∞18(1−21−4n)1−(2−4)+limn→+∞116(1−2−4n)1−(2−4)=215+115=15

可见,当小数不能表示为

x2k x2k 

s:表示符号位,只用一个bit表示
M:表示尾数(significand)(frac)也表示小数位,即能准确表示小数位
E:表示指数位,简单来说就是位数的多大。
那么,我们来看一下,我们最常用的float,double是怎么组成的:
这里写图片描述

明显的看出,float有8位指数位,23位尾数位。指数最大可表示的范围为-127~126,但浮点数的指数计算有一点技巧要用到:E-Bias。
下面是浮点数所表示的一个范围:
这里写图片描述
大家可以清楚的看到浮点数随着大小的不同被分成好几种,接近0的被称为Denormalized,比较大的数字被分为Infinity,接下来介绍这几种数字的特征:
Normalized:这是最常见的一种情况,指数位EXP不为0(不小),EXP不全为1(不大)。此时,阶码(这个2EE-1,k表示指数位的位数,float单精度即32位浮点为127,double双精度为1023。故float单精度的E范围为-126~127,对于双精度为-1022~+1023。
而对于尾数位,即小数位:相当于得到的数为1.M(M表示尾数位)
下面就到了重点了,这也是浮点数经常被大家忽略的地方。
Denormalized:当阶数E全为0的时候,被称为Denormalized,那么它的指数位就变成了E=1-Bias, 之所以不用-Bias,而用1-Bias,是为了实现与Normalized的数实现完美过渡,具体如何过渡的图片会在下面给出。
而Denormalized的尾数有什么特点呢:如果frac为0,说明该数为0,但是不知道是+0还是-0。因为,前面的符号位未知。如果frac不为0的话,那么实际的数字表示为0.M(M为尾数位),记住,此时前面是0.,因为只有是0.最终才能接近0
Infinity:当指数位全为1,frac尾数位为0的时候表示Infinity(可以表示无穷大),分别取符号位为1或者0,表示正无穷或负无穷。可以满足Infinity相乘或除,表示溢出。
NaN:not a number,即指数位全为1,frac尾数位不全为0.
一张图可以表示Normailized,Denormalized,Infinity,NaN
这里写图片描述
这张图说明,从Denormalized到NaN有什么变化:
这里写图片描述
可以看到在Denormalize使用E=1-Bias,并且M前取0,实现了从Largest denorm到Smallest norm完美过渡。
- 浮点数的rounding
上文提到无论是定点数还是浮点数都只能表示有限的位数,那么舍入就显的是一个很重要的环节了。浮点数采取的舍入方法,小于一半的向下舍入,大于一半的向上舍入,在中间的,close to even(向偶数舍入),下面是几个二进制例子:
Format A:
There are k=3 exponent bits. The exponent bias is 3.
There are n=4 fraction bits.
Format B:
There are k=4 exponent bits. The exponent bias is 7.
There are n=3 fraction bits.
要求给出A,将A转化为B
前一半为A,后一半为B

0110000 1 0111000 1
1011110 712712

可以看出第二,三,四的问题的关键在于进位
三的A为:0.11001,即到B先转化为1.1001,明显B的frac只有三位,所有根据close to even,需要接近偶数,所以,round down:1.100,符合。
比较有问题的是最后一个:000 0001 。首先,000说明是Denormalize,则该数表示为0.0001*22−2,由于B是4位exp,所以不会是最小的数,所以由Denormalize->Normalize,答案也为1/64
为什么要选择,close to even呢?如果全部的数字都为0.01要精确到小数点后一位的话,如果是四舍五入,那么最后的误差将是0.01*n,但如果是close to even的,认为偶数和奇数是等概率出现,就很小的避免误差往一边倒的情况。

扫描二维码关注公众号,回复: 4655594 查看本文章
  • 浮点数的计算
    首先先来两个公式
    x+ff
    但是3.14+(1e10-1e10)=3.14
    le20*(le20-le20)=0.0
    le20*le20-le20*le20=NaN,由于溢出的关系,可见在数字大的情况下不满足加法结合律和乘法分配律

最后,来看看double,float和int相互转化可能的问题
这里写图片描述
判断以下式子是否正确:
这里写图片描述
A.正确,因为double的frac为32位和int相同,不会丢失信息。
B.错误,因为float的frac为23位小于int,会丢失信息。
C.错误。double比float精度高。从double转float会丢失信息。
D.正确。
E.正确。符号数正负转化只取决于符号位。
F.正确。浮点数在进行运算的时候会全部转化为浮点数。
G.正确。
这里写图片描述
H.错误。如果f+d溢出,结果为0.

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/github_33873969/article/details/78040129

从学了C语言之后,一直习惯于C/C++任意的强制转化,但是C语言的强制转化却总是带来意想不到的后果,在这里,我将从int,float,double的本质上讲解这些可能出现的问题以及解决办法,在下面你将看到:
这里写图片描述
OK,现在好戏开始。

猜你喜欢

转载自blog.csdn.net/csshuke/article/details/84790067
今日推荐