当前位置：主页 > 新闻快讯 > “ARM将BF16深度学习数据样式带到ARMv8”

“ARM将BF16深度学习数据样式带到ARMv8”

发布时间：2021-06-11 11:15:02 阅读次数：

arm将bfloat16支持添加到项目三重ml平台下的armv8-a体系结构的下一个版本中。这标志着一个新的重要里程碑，年轻的数据风格席卷了深度学习社区，并得到广泛应用。本文将详细探讨这种风格的起源和效益。

数字样式

这看起来很明显，但如果从一开始就尝试构建计算机芯片，一个基本问题就是如何表示数字。整数时，处理起来非常简单。采用与十进制数同等的二进制数。忽略负数，为了简化硬件内的计算，设计稍微多一些复杂的方案。 )但是，有理数不需要担心非合理的数量，需要进一步观察。

处理方法是在计算机科学中采用“二进制”科学的表现形式，即浮点数。用科学计数法将数字表示为有理数-尾数-，将其尾数乘以底数得到指数。请注意，尾数在此时之前只包含一个数字。这是因为此二进制科学计数法的第一个数字始终为1。这是因为它实际上没有存储在计算机中。一个例子是1.11 * 21111。其值为1.75 * 215或57，344。尾数的计算结果为1.75。因为这一点之后的第一个数字表示值0.5，第二个数字表示值0.25。因为这个二进制数1.101等于十进制数的1.625。

“ARM将BF16深度学习数据样式带到ARMv8”

总之，这样的数字包括三条新闻。其符号、其尾数(其尾数可以为正或负)、指数。为了简单起见，ieee将其中一些浮点型式标准化为电脑用。其中最常用的是binary32 (或fp32 )和binary64 )。数字是用于表示数字的位数总数，大多数数字是指定给尾数的。这是为了提供更高的精度。这些也被称为单精度( sp )和双精度) dp )。如前所述，尾数的第一位始终为1，因此不包括在模式中。

“ARM将BF16深度学习数据样式带到ARMv8”

关于芯片的性能，有每秒浮点运算和flops的说法。这一般是指单精度。在高性能计算( hpc )中，例如在经典的top500列表中，双精度性能备受关注。但是，在移动图形，特别是最近的深度学习中，中精度( fp16 )也成为了时尚。英伟达很早就注意到了这一趋势，当时可能得到了移动技术的支持。而且，每年在maxwell引进了吞吐量为fp32两倍( flops )的半取景器支持。由于精度和范围降低，这是一种小型的数字风格，但已被证明对深度神经互联网来说是实现更高性能的实用折衷。

“ARM将BF16深度学习数据样式带到ARMv8”

b浮点16

当然，在尾数和指数之间如何分割比特大致可以自由选择。在指数中采用越来越多的比特，意味着可表达的数字的动态范围更大或更小，在尾数中采用越来越多的比特，将提高表达的准确性。后者一般是优选的。例如，要尽可能在浮点表示中近似pi，必须在尾数中使用大量位。

“ARM将BF16深度学习数据样式带到ARMv8”

因此，需要用ieee标准对尾数和指数位数之间的这一分类进行标准化。它还用于在硬件之间一致地解决舍入、上溢、下溢等异常。 sp的位数增加了一倍。增加了16位数。但是，其中只有三个给了指数。但这确实使最大值从65，000大幅增加到了〜1038。从fp16到fp32的机械精度提高了约10，000倍。下图显示了单精度和中精度样式以及新的bfloat16样式。

本文：《“ARM将BF16深度学习数据样式带到ARMv8”》

免责声明：雪球目录网免费收录各个行业的优秀中文网站，提供网站分类目录检索与关键字搜索等服务，本篇文章是在网络上转载的，本站不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2031@163.com，本站的工作人员将予以删除。

上一篇：“采用Galax的GeForce RTX 2060 Super Star自定义GPU的罩设计”

下一篇：“Apple iOS 13今日推出iPhone版iOS 13.1版本已于9月24日发布”

“ARM将BF16深度学习数据样式带到ARMv8”

相关推荐

热门收录

浏览比较多的新闻