0%

IEEE 浮点数表示

一直以来都不能非常清楚地记住浮点数的表示方式,这段时间开始重读 CSAPP 的第二章中浮点数表示的部分,大致上弄清楚了 IEEE 浮点数的表示方式。

简单介绍一下 IEEE 浮点数的表示方式,细节部分可以参考 CSAPP 和 维基

二进制小数表示

首先理解一下十进制小数的表示方式,我们以下面这种方式表示十进制小数:

$$
d_{n}d_{n-1}…d_{1}d_{0}.d_{-1}…d_{m}
$$

表示的值为:

$$
\sum_{i = m}^{n} 10^{i}d_{i}
$$

类似地,二进制小数的表示方式:

$$
b_{n}b_{n-1}…b_{1}b_{0}.b_{-1}…b_{m}
$$

$$
\sum_{i = m}^{n} 2^{i}b_{i}
$$

例如二进制小数

$$
11.01_2 = 1 \times 2^{1} + 1 \times 2^{0} + 0 \times 2^{-1} + 1 \times 2^{-2}
= 2 + 1 + 0 + 0.25
= 3.25
$$

现在考虑如何对这种二进制小数进行编码,一种可行的方式是定点小数。即将小数点的位置固定。例如使用 16 位二进制数来编码定点小数。可以做如下规定:

  1. 第 15 位为符号位。
  2. 第 14 ~ 9 位表示小数点前的数
  3. 第 8 ~ 0 位表示小数点后的数

那么,$11.01$ 可以编码为 $0 000011 010000000$。

这种表示方式的优点是比较简单,但是能够表示的小数的范围就十分的小。不考虑小数点后的数字,这种方式能够表示的整数范围就只能是 $-2^{6}+1 \sim 2^{6} - 1$。

于是,考虑到不去固定小数点的位置。而是根据当前的数字来确定小数点的具体位置。这样,就有了一种新的表示小数的方式,即浮点数。以下面这种方式表示(不考虑编码方式):

$$
V = (-1)^s \times M \times 2^{E}
$$

其中,$s$ 表示符号位,$E$ 表示阶码,$M$ 表示尾数。

通过这种方式,就有了 IEEE 754 浮点数规范。其具体定义了浮点数的位级编码规则。

IEEE 浮点数表示

首先, IEEE 将浮点数编码为 32 位或者 64 位。其中,32 位的规则如下:

  1. 第 32 位表示符号
  2. 第 31 ~ 23 位表示的值为 $E$,其位级表示记为 $exp$
  3. 第 22 ~ 0 位表示的值 $M$, 其位级表示记为 $frac$

64 位编码表示中,$exp$ 长度为 11,$frac$ 长度为 52。与 32 位类似。

根据 $exp$ 和 $frac$ 的表示的不同,IEEE 浮点数规范将浮点数分为 4 类:

  1. 规格化数: $exp$ 不为全 0 和全 1
  2. 非规格化数: $exp$ 为全 0
  3. 无穷大: $exp$ 为全 1 且 $frac$ 为全 0
  4. $NAN$: $exp$ 为全 1 且 $frac$ 不为全 0

规格化数

首先 $E = e - Bias$, 其中 $e$ 为 $exp$ 所表示的无符号数。$Bias$ 的值为 $2^{k-1}-1$,$k$ 为 $frac$ 部分的长度。例如,32 位编码时 $k$ 的值为 $8$,于是 $Bias$ 的值为 $127$,最终, $E$ 的范围为 $-126 \sim 127$。

其次 $M = 1 + f$,其中 $f$ 为 $0.f_{n}f_{n-1}…f_{0}$ 所表示的值。这里,通过将 $f$ 加 1 获得了一个额外的表示精度位。

非规格化数

其 $E = 1 - Bias$,而 $M = f$。

根据该定义,当 $frac$ 为全 0 时, $M = 0$。于是:

$$
V = (-1)^s \times E \times 0 = 0
$$

根据 $s$ 的值的不同,得到了表示 0 的两种方式,记为 $+0$ 和 $-0$。

无穷大

根据符号位分为 $+\infty$ 和 $-\infty$。

总结

一般来说,非规格化数用于表示 $0$ 和非常接近 $0$ 的数。而相对其他能正常表示的数则用规格化数表示,溢出的值则用无穷大表示。当溢出的小数部分为非 $0$ 即可用 $NAN$(Not A Number)表示。当一些运算的结果不是实数或者无穷时,就会返回 $NAN$,比如 $\sqrt{-1}$。

写在最后

写技术文章需要严谨、正确,可能我比没有做到。所有如果有疑惑的话,可以学习一下 CSAPP 中和此有关的内容。