芯片设计“绝招”完毕？无指令体系结构颠覆了旧的常规-区块链网站|NFTS

近日，英伟达在GTC发布会上发布了最新一代GPU H100，采用TSMC 4nm工艺，集成了800亿个晶体管。3月初，苹果发布了M1超芯片，集成了多达1140亿个晶体管。很明显，头部厂商正在推动现有芯片设计和制造技术的极限，但问题是，当这些“招数”用完时，会发生什么？

SambaNova和Tenstorrent在面临AI负载的新芯片初创企业中有足够的吸引力，它们都可以看作是专门为数据流架构设计的软硬件系统。从公开资料来看，都在强调编译软件的重要性。虽然是硬件重配置，但是重配置方案是由编译器完成的，核心问题是解决布局布线问题。似乎他们都做得很好。

其实在这两家公司之前，Wave Computing这种“殉道者”公司也走过这条路，可惜没有走通。实际上，所有这些努力都可以追溯到VLIW。Wave Computing破产后，CEO彼得福利(Peter Foley)东山再起，继续在Ascenium公司负责VLIW架构。看来他信心满满，该通关了。

作者| |蒂莫西普里克特摩根

翻译|刘晓真、胡、沈佳丽、周亚坤

任何架构中总有一些本质的、基本的、毋庸置疑的功能。直到某个聪明的建筑师出现，才告诉我们事实并非如此。建筑和桥梁是如此，系统及其处理器也是如此。这就是为什么我们用同一个词“建筑师”来形容设计宏观和微观结构的人。

Ascenium公司联合创始人兼首席执行官彼得福利(Peter Foley)就是这样一位建筑师。该公司刚刚在2021年筹集了1600万美元的A轮融资。Foley和他的Ascenium团队希望放弃现代CPU中的许多架构，从零开始开发Foley所说的软件定义和持续可配置的处理器。Foley说，有必要把处理器拆开，用完全不同的方式构建，因为目前的CPU架构技能已经用完了。

先介绍一下Foley，然后说说Ascenium公司正在开发的Aptos处理器架构，以及它将如何撼动CPU市场。

福莱的广博知识和渊博学识使他有了今天的成就。他在莱斯大学获得电子工程学士学位，然后在加州大学伯克利分校获得硕士学位。在伯克利，Foley与David Patterson(谷歌大脑团队成员)和Alvin Despain(美国电气工程师，曾是Acorn Technologies的联合创始人兼首席技术官)一起用Smalltalk语言进行RISC(SOAR)芯片项目。

毕业后，福利加入苹果公司，开始开发Mac和Mac II电脑中的各种芯片。1987年，他成为开发牛顿个人数字助理(PDA)的四个原始成员之一。它是iPad平板的前身，但当时没人知道。值得一提的是，Foley负责为PAD开发“霍比特人”处理器。离开苹果后，他加入了第三方GPU供应商SuperMac，然后在Chromatic Research开发了可编程VLIW和SIMD媒体处理加速器。

Foley在风险投资公司Benchmark Capital做过一段时间的常驻企业家，然后创立了nBand Communications，并创建了软件定义的宽带无线广播(类似于WiMAX，而不是5G，说实话，在大多数地方更像4.1G)。

然后，他在Predicant Biosciences担任了近四年的工程副总裁，该公司开发了用于扫描血液蛋白质以发现癌症的诊断设备。之后，他在风险投资公司Tallwood担任了近四年的常驻高管。

经过这一切，特别是在2009年12月，福利意识到加速计算的前景黯淡，于是成立了人工智能芯片初创公司Wave Computing，并担任首席执行官。值得注意的是，福利离开了波计算。在几年的时间里，这家公司通过复杂的交易将技术授权给中国企业，还收购了MIPS芯片公司。MIPS芯片公司从十几年前被SGI(硅图)分离出来之后，就一直在不断的易主。最后，Wave Computing不得不在2020年4月申请破产重组。

准确地说，Foley于2016年6月离开Wave Computing，开始了自己的咨询业务。直到2019年6月，他加入2018年3月成立的Ascenium公司担任CEO。

Ascenium公司获得900万美元天使轮融资，1600万美元A轮融资。投资方Stavanger Ventures AS是一家风险投资公司，由挪威企业家Espen Fjogstad运营。他创办的公司已经被易贝和谷歌收购，还有很多其他公司在奥斯陆证券交易所上市；这些公司中有几家从事油藏建模，这在北海石油繁荣时期派上了用场。自20世纪70年代末以来，北海石油繁荣为英国和挪威的经济注入了新的活力(油价上涨，技术发展，海上石油钻探经济)。

据了解，Ascenium最早成立于2005年之前，当时其创始人兼首席技术官罗伯特迈克兰德在Hot Chips大会上发表了演讲。

(https://llvm . org/ProjectsWithLLVM/ascenium . pdf).公司获得了9项专利，在诉讼频繁的半导体领域非常有用。Ascenium目前的实体公司成立于2019年6月，致力于充分利用和发展Foley、Oyvind Harboe和Tore Bastiansen的研究成果。

“牛顿的个人数字助理(PDA)”在当时是领先于时代的。根据摩尔定律，在芯片和网络的发展赶上来之后，我们才真正有了PDA。同样，也许我们要等到摩尔定律的终结，才能思考罗伯特迈克兰德(Ascenium的CTO)早在16年前就提倡的东西。

了解了背景信息后，我们和Foley聊了聊Ascenium正在开发的处理器。它试图通过Aptos处理器重新定义软件编译器和底层硬件之间的接口，而不是我们熟知的指令集。Aptos处理器是由64位计算单元组成的可编程阵列。下面是大概的结构图，有点模糊，因为Ascenium还是挺神秘的。

以下是与福利的对话。

数字一（one）

抛弃旧的传统“无指令集架构”

Timothy Prickett Morgan:我好像看到了一个没有指令集架构的处理器。我看了两遍，然后摇头说，这是什么？它成功地引起了我的注意。

彼得福利(Peter Foley):我之前在塔尔伍德的时候，我的老板达多巴纳陶(Dado Banatao)说，市场巨大，尚未复苏，创新的时机已经成熟。我们的使命是用完全不同的新事物进入这个巨大的市场。

我们觉得一定是完全不同的架构。如果你在同一个沙盒里一直遵循同一套规则——，也就是指令集架构，你就得有一个串行指令流进入乱序发布机)——，有深度流水线。我就不细说了。如果你遵守这些规则，你就不会赢。看看那些ARM受害者：Calxeda，Cavium，Broadcom等等。

TPM:确实有很多受害者，价值数十亿美元的受害者。

彼得福利：高通已经尝试了两次，他们仍在尝试。在单核单线程SPECint上很难打败Intel，这才是人们真正关心的。

TPM:AMD就是这么做的。

Peter Foley:是的，但是AMD仍然使用X86架构，他们有许可证。AMD现在可以说一定程度上打败了英特尔，但这很大程度上与英特尔在晶圆厂的选择上的失误有关。AMD用TSMC，所以他们在一段时间内有节点优势。

TPM:我最近写了一篇文章，还没有发表。我说AMD历史上最好的消息就是GlobalFoundries(半导体代工厂)把14nm技术搞砸了，但是IBM把微电子部门卖给了GlobalFoundries，成功了，然后10nm真的搞砸了。在那之后，AMD不得不采用TSMC的7纳米工艺，而英特尔的10纳米工艺存在很大问题。AMD总能设计出高质量的芯片，但是英特尔的代工问题影响太大了。

彼得福利：你说得对。微调架构和投资数十亿晶体管是次要的。但是，摩尔定律和登纳德标度定律并不匹配，因为这些架构非常复杂，必须投入数十亿个晶体管来提高5%、10%和20%的性能。问题是温度太高了。你要么调低时钟，要么关掉部分模具——，然后就会出现暗硅问题。

TPM:我一直在说调低时钟让内存和CPU回到近相位，因为大部分时间你只是旋转时钟等待。所以还是慢一点，别等了。要想在GPU上运行，就要把代码并行化，所以要把CPU做成GPU的样子，通过这种方式来提高它的处理能力。

Peter Foley:英伟达的Ampere GPU也有这个问题。它们会产生大量的热量，即使时钟很慢，它们也有400瓦，这意味着安培不能用在PCI板上，而是应该重新设计以适应300瓦的PCI-Express。

TPM:所以，我认为它为Ascenium正在尝试做的事情奠定了基础。

彼得福利：我们正在做的事情将会非常不同。这个想法是重新定义编译器和硬件之间的划分，这是基于50年前使用ISA和后来使用RISC机器的IBM大型机。

那时候你有三级或者五级流水线，编译器能处理的东西有限，因为你马力不多。但当时看起来分工很好。问题是，这个API部门已经变得非常过时了。50年后的今天，随着计算能力的提升，以及我提到的登纳德标度定律和无序架构下放置晶体管的问题，这种划分已经不能真正起作用了。

现在是时候重新思考了。我们应该抛弃所有与旧ISA相关的内容：深度流水线、乱序、重排序、重命名、转发、运行时间分支预测，统统扔掉。

TPM:那么还剩下什么？你刚才说要扔掉的，基本都是我理解的。

彼得福利：我们现在有一些关键的推动因素。一个是现在编译器使用了大量的马力。所以你可以让更复杂的编译器做更多的工作，因为有足够的马力去做。

另一个驱动因素是，如果你打算使用基于数组的方法，这种方法由编译器以极其精细的粒度直接控制，这有点像在基于数组的机器中放一个巨大的微码，所以你使用的编译器通常是一维的。会生成一个指令流，然后你把指令发给硬件，硬件必须提取所有并行，完成所有事情。相反，我们说编译器要做大量的工作，深入了解整个程序，进行更复杂的优化。现在编译器是5D编译器，需要做2D布局，2D布线和调度，所以还有更多工作要做。

因为我们的目标市场是数据中心，我们可以随时重新编译。我们可以在15分钟到半小时内编译好，然后在数据中心运行1000万次，收获能耗回报。从能耗的整体考虑，这种计算方法也发生了变化。

因此，在非常复杂的2D计算阵列上花费更多的时间是值得一试的，它由具有巨大微码容量的编译器直接控制。如果能节省5%或10%的耗电量，那就值得了。如果你能做到，超大规模的企业会想尽办法邀请你访问他们的数据中心。

谈到Ascenium的Aptos处理器和我们的方法，实际上还有另一个关键驱动因素。我一直在钻研这个问题，这是我对这个公司的一点点贡献。我意识到了这一点，我认为这将对Ascenium目前的工作产生一定的影响。

一家名为Tabula的公司也遇到了类似的问题。他们在软件工作中遇到了一个现实问题，结果在第二次或第三次尝试时引入了约束求解器，得到了解决。Tabula使用基于SAT求解器的方法来编译后端。我们在Wave计算中也采用了同样的方法，然后我把这项技术带到了Ascenium。

我们有一个标准的LLVM编译器基础设施，加上一个新的LLVM后端，主要用于适合约束求解器的硬件。就像一个黑匣子。如果你有一个非常简单的规则结构，你完全可以用一组逻辑方程来描述行为，无论是在时间上还是在物理上。然后我们的SAT求解器就可以对其进行分析和解释，从数学上给出最好的证明结果。

很难被超越。永远不要在复杂、异构和无序的架构上使用约束求解器。算了，浪费时间。但是在我们的场景中，这是可行的。

在讨论整个程序时，SAT solver方法的数学最佳证明结果被夸大了。从数学上讲，它对于代码块来说是最优的。但是对于整个程序来说，计算起来有点棘手。

这些代码块必须拼接在一起。所以SAT solver窗口贯穿整个代码，把编译好的窗口拼接在一起(这样会降低效率)。因此，该公司的诀窍之一是知道如何优化分区、编译和拼接SAT编译的程序块。

我们的想法是让芯片的架构尽可能简单，这样在安装到SAT求解器上之后，我们会得到一个令人惊讶的最好的5D解。这是一个赌注：除了跳出X86和ARM沙盒之外，拥有一个IP清除方法也很重要。这又是一个问题：如果你试图和这些CPU架构竞争，你会撞上一堵巨大的IP墙。一旦你开始对他们构成威胁，他们会立刻起诉你。这是生意，对吧？

通过架构简化释放性能

TPM:所以是一个极致的RISC？

彼得福利：没错。我就是这样出生的。很久以前，当我在伯克利时，我在一个芯片研究团队中与大卫帕特森一起研究Smalltalk语言。我几乎整个职业生涯都在研究处理器，而且大部分都是RISC处理器。

TPM:我觉得可以称之为NISC(无指令计算)，因为它把RISC(精简指令集计算)做到了极致，对吧？

彼得福利：哈哈，没错！但说实话，约束求解器现在是个热门话题，可以说席卷了整个EDA(电子设计自动化)行业。本质上，我们现在做的，其实更多的是一个EDA问题，而不是传统的编译问题。这有点像把一个完整的Xilinx或者Altera的FPGA后端组合到编译器中，因为它们的很多功能都类似于FPGA查找表结构中的布局、路由和调度。我们所做的与此类似，只是我们的目标是通用计算引擎。约束求解器现在在许多其他地方被使用，但是将它应用于一般计算是我们的开创性工作。目前正在努力申请知识产权和专利，希望获得先发优势。

TPM:所以有点像FPGA数据流引擎和CPU之间的东西。可以这么理解吗？

彼得福利：可以这么说。不过这是通用处理器，我们不像FPGA那样用查找表结构来模拟硬件。

另一个有趣的点是，在X86指令流中，至少有50%的指令是与数据处理相关的移动指令，而实际的运算指令，如加、减、乘等，只占20%左右。但在我们的处理器中，编译器可以用同一套控制字严密地控制一切，即数据处理、操作、设置文本流向、布线等。都可以由编译器通过数组中的同一个控制字同时控制。所以我们的产品没有序列化，当指令导入到只进位的架构中，就不会有阿姆达尔定律带来的弊端，因为一切都是编译器做的。

编译器需要同时跟踪许多东西。然而，在典型的无序机器中，正在执行大量的重命名，这是非常复杂的，并且需要阵列中有足够的资源来高效地执行这种具有巨大容量的分布式重命名。所以我们采用分布式内存，通过大量的复用来减少进入典型寄存器堆的流量，这样就可以达到简单化。可以说我们基本没有处理流程，所以分支阴影极短。这就是我们的独特之处。

TPM:所以可以说是惠普和英特尔联合开发了EPIC(显式并行指令计算)，然后把它嫁接到类似X86的东西上，但是没有它好，做出了安腾。而现在你抛弃了惠普和英特尔的成就，只保留了史诗般的部分.

彼得福利：我猜你的下一个问题可能是，这是真的吗？

TPM:不全是。你必须理解我们。当所有的AI创业公司来找我们的时候，我和Nicole(TPM的合伙人)都会取笑他们。这些公司的硬件做的很好，然后我们再来说说他们开发的编译器有多强大。他们总是为介绍做铺垫，然后说“我们的编译器可以解决所有这些问题”。但是你说的编译器是我听过最神奇的。所以，如果我持怀疑态度，可能是因为我不太了解…

彼得福利(Peter Foley):我们的投资者愿意投资A轮来帮助公司进一步发展的原因之一是，我们已经证明，我们可以在5到10分钟内编译70万行代码，并成功地在FPGA原型上运行。这就是我们的架构的亮点：它非常简单，你可以在FPGA上制作原型。

TPM:更准确的说，这不就是把四块板组合起来模拟一个小芯片吗？然后每块板配8个FPGA，最贵的那个。

彼得福利：当然不是。不像Paladium仿真器，我们只用一个中档FPGA板，不然用不起。

我们可以运行70万行代码，包括SPEC中使用的C语言标准库。我们编译这些代码，并在我们的FPGA测试平台上运行。FPGA测试平台并不是一个完整的架构，它只是整体架构的一部分，得到的结果具有正确的功能。我们有大量的符号调试器和一些其他的基础设施来辅助这样的操作。

TPM:变成产品后会是什么样子，你们会怎么推广？

彼得福利：我们试图在两个最重要的指标上取得胜利。第一个是SPECint性能，一般用指令/时钟(IPC)来衡量，但实际上并不是一个很好的衡量标准。但是我们有一个指标，在我们的每个控制字中执行的工作相当于X86指令。如果从结果和优化的角度来评价编译器的质量，我们计划下一步在IPCW、指令/控制字和IPC等价方面做相应的调整。这一步对于超大规模处理器至关重要。

TPM:你们这些家伙完全是在赌博。

彼得福利：另一个指标是功耗。我们的想法是这两个指标都要赢，而且一定会赢。为了降低功耗，我们移除了所有晶体管。

TPM:所以，你看到了需要移除多少晶体管，对吗？

Peter Foley:很少，比X86少很多。

TPM:大概是一个数量级还是三倍？

彼得福利：应该是一个数量级。现在还没有结论，所以还不知道详细的数字。我们花了这笔钱只是为了了解它。我们会把微架构具体化、定型，然后建立一些试验硅，拿到5 nm的工具，或者其他我们需要的东西，然后建立这个微架构，进行布局。

这是构建处理器的步骤之一。你要做的就是处理所有的几何图形。这一步是为了解决空间延迟和距离限制。布局决定了许多因素，这些因素反过来会影响微体系结构。因此，我们必须解决这些问题，同时注意其他问题。一旦我们开始深入研究这些问题，我们就可以更有信心地告诉你那个数字是多少。

TPM:所以，如果非要我总结Aptos架构的话，那就是降低功耗优化性能3354，但是你不需要降价。

彼得福利：是的，没错。所以我们不用花很多钱在ARM架构上。

(本文已授权编译，原文：

https://www . nextplatform . com/2021/07/12/gutting-decents-of-architecture-to-build-a-new-kind-of-processor/)

OneFlow v0.7.0最新版本已经发布。欢迎下载体验：https://github.com/Oneflow-Inc/oneflow

芯片设计“绝招”完毕？无指令体系结构颠覆了旧的常规

作者: 永不出售

发表回复取消回复

给这篇文章的作者打赏

作者: 永不出售

相关推荐

发表回复 取消回复

发表回复取消回复