“日前,曦智科技宣布发布最新高性能光子计算处理器——PACE(Photonic Arithmetic Computing Engine,光子计算引擎)——单个光子芯片中集成超过10,000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU的数百倍。根据曦智科技官方陈述,PACE成功验证了光子计算的优越性,是曦智科技在集成电路产业的又一重大突破。
”日前,曦智科技宣布发布最新高性能光子计算处理器——PACE(Photonic Arithmetic Computing Engine,光子计算引擎)——单个光子芯片中集成超过10,000个光子器件,运行1GHz系统时钟,运行特定循环神经网络速度可达目前高端GPU的数百倍。根据曦智科技官方陈述,PACE成功验证了光子计算的优越性,是曦智科技在集成电路产业的又一重大突破。
PACE与PCI-e板卡
百万数量级的增长
2019 年 4 月,曦智科技正式发布了全球首款光子芯片原型板卡,并用光子芯片运行了 Google TensorFlow 自带的卷积神经网络模型来处理 MNIST 数据集,整个模型超过 95% 的运算是在光子芯片上完成。其光子芯片处理的准确率已经接近电子芯片(97% 以上)。另外,光子芯片完成矩阵乘法所用的时间是当时最先进的电子芯片的 1% 以内。
初代原型板卡中包含约100个光子器件,运行频率为100kHz。然而正如曦智科技CTO孟怀宇博士表示,初代原型板卡“并没有完全释放光子计算的潜力”。也正因此,历时两年研发,曦智科技通过革命性自研的光电子集成技术,推出了新一代光子计算处理器——PACE。
考虑到单颗芯片上100倍的光子器件数量提升,以及一万倍的主频提升,新一代PACE处理器的算力是第一代的百万倍级别增长。并且根据曦智科技CEO沈亦晨博士透露,未来主频时钟还可以提高1至2个数量级。
实测的算力提升
为了证明光子计算并不是在吹牛,曦智科技也给出了实测数据。
与目前市场上零售商用可购买的算力领先的英伟达GPU3080相比,运行PACE相同的特定循环神经网络算法,PACE的运行时间仅是GPU的1%之内。
PACE可用于解决组合问题,通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,生成如伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)的高质量解决方案。这些困扰了全球数学家近50年的难题,属于多项式复杂程度的非确定性问题(NP-complete),即在多项式时间尺度下无法通过数学方法解决的问题。
如上实测结果显示,在最大割问题上,PACE的运行速度仅为154μS,而GPU要花费18000μS。
沈亦晨表示,PACE芯片的设计初衷并不是满足所有通用性的神经网络,之所以选择最大割问题进行对比,是因为最大割/最小割问题为代表的NP-complete可以广泛应用于生物信息、交通调度、电路设计、材料发现等领域。而一旦一个NP-complete问题得到解决,就可以相对容易地将解决方法映射到其他NP-complete问题上。
此外,沈亦晨还表示,明年曦智科技会推出相对通用化的产品,基于光子计算的优势去修改或优化更多模型,从而满足不同的市场需求。
为什么光子计算这么牛?
软件吃掉世界,AI正吃掉软件。
实际上,AI对算力的需求自从2012年之后,就开始呈现爆炸式的增长——平均每3至4个月,计算模型就会翻一倍。
随着先进工艺制程导入越来越困难,传统的摩尔定律正在放缓,即便不放缓,18个月晶体管数量翻倍也无法满足AI模型的增长。为此业界普遍开始采用DSA架构方式进行特定应用的优化,但依然存在三个瓶颈——算力、数据传输与存储。
沈亦晨解释道,晶体管的大小受限于原子的物理尺寸,已经不能无限制微缩。同时由于晶体管的隧穿现象,功耗也不能降低,散热的问题无法有效解决。密度无法大幅提升的情况下,只能依靠增加面积来提升总算力,但无法做到线性提升。比如Cerebras推出的单晶圆芯片,算力的确提高到英伟达的70-80倍,但是功耗却是英伟达的200倍以上,额外的功耗主要是缘于片上网络上的数据搬运所消耗的功率。在片间网络上,由于带宽限制,也严重影响了并行计算的效率,比如100个板卡互联,算力可能只比单卡提高10倍以上。而对于存储来说,依然是数据搬运过程中的延迟与带宽问题,出现所谓的“内存墙”问题。
但是光子计算下,由于矩阵乘法本身是被动的,这个过程中不会消耗任何能量,此外光子计算的速度是光通过矩阵所需的时间内完成的,并不需要晶体管的翻转,因此仅需几分之一纳秒便可完成,最后高能效和低时延性能与输入光信号的频率无关,这就意味着光矩阵可以支持高通量。
光纤通信的成功商业化,已经证明了光在计算网络中的重要性。同时,光子计算由于其距离较短,因此也不会受到光的色散及损耗的影响。
近年来,利用存内计算架构打破内存墙限制的技术也开始火热,同光学一样,这些也是基于模拟的神经网络计算,一个晶体管即可等效于一个计算单元。沈亦晨也表示,光子的矩阵运算是基于模拟的运算,所以精度有一些限制,但是光子信号更加干净,因此也会一定程度上好于基于电的模拟计算。
目前光子计算可以支持到8bit、10bit等AI常用算法要求,并且未来光子计算精度还有进一步提升的空间,同时也会提供低精度的支持。
探秘PACE
沈亦晨强调,PACE并不是纯光学的计算,而是光电深度混合运算,并且在可预见的未来,这也是光子计算的主流发展方向。那么PACE里面到底有哪些东西?
可以看到,PACE芯片也是包含两部分,一部分是硅光芯片,另外一部分则是传统电子芯片,通过3D封装形式倒装堆叠实现两者互联。
PACE的电子芯片上包含了数字芯片和模拟芯片,其中数字芯片包括了逻辑和SRAM,逻辑部分负责调解数据流和管理输入输出,SRAM则负责存储。
模拟则是沟通桥梁,包括一系列的信号链组成,包括A/D、D/A转换器、放大器、驱动、调制等。
硅光芯片则包括了64x64光学计算矩阵以及光电探测器等,激光器则是选择了外置。理论上来说,激光器离芯片越近越好,也正因此英特尔的硅光子技术就是将激光器、半导体光学放大器、全硅光电探测器、微型环调制器等集成在单芯片中。沈亦晨也表示,这也是未来曦智科技的技术演进方向。
对于每个光学矩阵乘法,输入向量值首先从片上SRAM中提取,由数模转换器转换为模拟值,然后通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,光调制器相应地减弱入射光,形成输入光矢量。而整个光学矩阵扮演了类似NPU矩阵的角色,经过计算之后,输出端产生一组光学输出,由光电探测器阵列将光强转换为电信号,通过微凸点返回到模拟部分,再通过跨阻放大器和数模转换器返回数字域输出。
选择光电混合方式,可以使IO交互都通过电芯片完成,所有的指令集编译器以及SDK都是在电芯片上进行,这样可以和目前现有的软件生态兼容,客户可以更快导入。
而在开发方面,沈亦晨表示,无论是硅光还是硅电芯片,都是CMOS工艺,这就解决了90%的问题。包括大部分的电学/热学仿真、设计、验证等工具都可以直接使用,而在晶圆生产过程中也是基于传统CMOS工艺进行修改,可能会引入几个特殊的工艺步骤,而在封装方面,则需要考虑激光器封装或者预留出光源通道,但绝大部分都已经得到成熟的商业化应用。
尽管描述起来简单,但曦智科技的光子计算芯片想要成功,还需要克服诸多工程难点,从而解决剩下的10%的问题。沈亦晨表示,在曦智科技成立之前,全球最高集成度的硅光产品可能也就集成了数十个光学相关器件,为了满足光学计算矩阵所需的数万个光器件,纯手工的方式已经无法完成设计,因此曦智科技重头开发了一套高集成度光子芯片的设计流程。而在封装上,也是由于光学器件的高度集成,传统外接板卡进行光学组件控制的方式无法适用,需要开发出针对光学控制的3D封装。此外,针对光电信号协同工作,需要涉及软硬件集成、系统架构设计等多方面因素。
为此,曦智科技也专门聘请了Maurice Steinman担任工程副总裁。资料显示,Mo在科技行业的职业生涯有30多年,曾在Digital、康柏(Compaq)、惠普(HP)、英特尔(Intel)等公司工作,并在AMD担任Senior Fellow与首席架构师。作为一名拥有超过24个成功测试和产品介绍经验的老手,Mo是SoC架构、SoC互连、内存子系统和电源管理方面的专家。
曦智科技的核心技术
曦智科技的光子学技术主要分成三大部分:oMAC-光学乘积累加运算、oNOC-片上光网络、oNET-片间光网络。
(1)oMAC-光学乘积累加运算:这是一种模拟计算,用光替代传统电子进行数据处理。数据可加载在光的强度或相位上,数据流动的同时进行计算。oMAC执行线性运算也可理解为矩阵-矩阵或矩阵-向量之间的乘法。
其实现方式是采用与CMOS兼容的硅光工艺平台,光-电协同设计,结合先进封装技术;采用高速可调、小尺寸电光调制器设计;通过新颖的计算架构-基于MZI结构的相干/非相干方案,来做光与光之间干涉;最后硬件-算法的协同优化。
它的优势在于光计算并行能力更强,能效媲美甚至更优于电子芯片,且延迟超低。此外,硅光对工艺制程要求和成本很低,比如一个65nm或45nm的CMOS工艺器件就能满足现在光子计算所有的要求,其制造工艺成本远低于电芯片。
(2)oNOC-片上光网络:通过波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC) 内部的数据传输、封装内部多个电芯片 (EIC) 之间的数据通信。
其实现方式是在光芯片上构建一个固定或可灵活调整的通讯网络拓扑,将不同的电芯片与其中单个或多个节点相连,实现基于oNOC的数据交互;采用形式有基于光广播的网络拓扑和基于波分复用的网络拓扑。
它的主要优势是高带宽、低能耗、低延迟、距离不敏感。另外,该方法通用性强,可将不同类型的电子芯片与之结合,为芯片间提供高速、低能耗的互连,适用于有高带宽需求的应用场景。
(3)oNET-片间光网络:光芯片起到类似optical BUS的作用,将单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。
该技术主要用于优化计算单元之间的通信效率。相比传统电互连,光网络的能效比高、光学传播损耗低、带宽高、延迟低,且传输距离不敏感。
而除了在集成光子学工程上的技术之外,公司还拥有大量AI相关人才,曦智科技提出了一个新颖的基于循环神经网络(RNN)的模型,该模型兼具幺正(而不是一般的)RNN的记忆能力和门控RNN有效遗忘其内存中冗余/无关信息的能力。
光学生态正变得火热
2017年,沈亦晨以第一作者身份在《自然–光子》期刊发表封面论文,首次将集成光子计算的新起点展示在世人面前。
而正是这篇论文为契机,诞生了包括曦智科技以及Lightmatter在内的二十余家相关公司,同时包括英特尔、HPE、IBM等一批巨头也纷纷进入这一市场。
沈亦晨此前接受MIT科技评论专访时,曾将光子技术的竞争阶段比作晶体管取代真空管的时代。彼时,几家晶体管公司正在实现跨越式发展,但他们之间的竞争并不是相互竞争,而是创新力与现有行业竞争。“在这个阶段,有更多的竞争对手从事光计算对我们有利。可以发出更大的声音,形成更大的社区来扩展和增强整个光计算生态系统。”沈亦晨说道。
沈亦晨特别强调,PACE的成功问世,也离不开合作伙伴的大力支持,曦智科技正在同一线晶圆厂、封装厂以及国际知名EDA设计等公司建立战略合作关系,从而充实整个生态。
沈亦晨表示,传统硅光生态由于量级较小,因此对于供应链没有足够的吸引力,只有像光子计算这类大规模应用场景加持下,才可以加速生态发展。更重要的是,越来越多的客户对高性能、低功耗的AI计算越来越有兴趣,这也是曦智科技生态链中的最重要环节。实际上,在曦智科技的股东中,就不乏一线互联网客户。
实际上,除了光子计算,固态激光雷达、光传感器等技术也在迅速发展,无论哪类场景,对于基础光子的工艺、封装以及器件等都会有相通性,光子市场的全面扩大,才可以进一步加速光子计算的商业化进程。
根据Wired此前报道,使用光子进行计算的想法并不新鲜,可以追溯到 1950 年代。但事实证明,电子计算更适合开发和商业化。1980 年代,贝尔实验室曾尝试制造通用的基于光的芯片,但由于构建可工作的光学晶体管的困难而失败。而现在的产业生态的发展显然是当初无法比拟的。
曦智科技的未来
目前曦智科技累计融资总额超10亿元,全球全职员工近200人,其中技术人员占比超80%,70%的芯片设计师拥有10年以上半导体从业经验,涵盖从硅光到软件、从模拟到数字最完整的团队。这一磨合了四年的队伍,也被沈亦晨视为公司“最大的财富”。
沈亦晨还强调,曦智科技是光子计算中起步最早,同时也是执行力最强的公司。光子计算不像数字电路,有成熟的设计流程,光子计算系统的开发包括器件设计、封装、以及软硬件一体化等较长的磨合周期。“任何一家公司,哪怕是几千亿市值,如果要从现在开始做出PACE一样的产品,也至少需要三年时间。”
谈到未来的发展计划,沈亦晨划分为三个阶段:
第一阶段,从现在开始,1~3年落地体现光子计算优势的应用场景,包括云计算、智能驾驶、金融上的量化交易、生物药物研发等,目前曦智科技已同全球顶级云服务供应商、主要金融机构开始进行深度合作。
第二阶段,随着光子计算优势明确后,将进入训练市场,在训练市场上,需要更多芯片的协同,更大体量的矩阵乘法以及更成熟的软件体系。
第三阶段,随着硬件和软件体系更加成熟,计划切入GPU、车载芯片等既对算力有需求,同时也对功耗,可靠性,软件生态等有更高要求的大众市场中。
未来路还很漫长,但正如PACE命名的内涵一样,迈出了重要的第一步,光子计算也将会有更光明的未来。
分享到:
猜你喜欢