存算一体的基本概念最早可以追溯到上个世纪七十年代,但是受限于芯片设计复杂度与制造成本问题,以及缺少杀手级大数据应用进行驱动,存算一体一直不温不火,但最近几年,存算一体似乎已经进入爆发前夕。
尤其是国内一大批存算一体技术公司伴随着融资信息浮出水面,如知存科技、苹芯科技、九天睿芯、后摩智能、合肥恒烁、闪忆科技、新忆科技、杭州智芯科等,动辄亿元起的融资金额也充分证明了资本对存算一体这个赛道的青睐。国外的三星和Myhtic也是该领域的潜心研究者,他们近来也动作频频,在最近的hotchips上,三星就披露了他们的HBM-PIM方案,Myhtic的存算一体模拟AI芯片也有了新进展。一个新的存储计算时代似乎将要来临。
存内计算市场为何被看好?
今年5月Myhtic C轮融资了7000万美元,迄今为止已共计筹集了1.65亿美元;6月10日,知存科技宣布完成亿元A3轮融资,产品线扩充及新的产品量产,加上此前的两轮融资,截至目前,知存科技已完成累计近3亿元的A轮系列融资;6月25日九天睿芯获亿元级A轮融资,用于新产品研发和人员扩充的工作;7月2日,杭州智芯科完成近亿元的天使轮融资,用于继续搭建团队,启动ACIM下一阶段技术研发与市场拓展;8月24日,后摩智能宣布完成3亿元人民币Pre-A轮融资,将用于加速芯片产品技术研发、团队拓展,早期市场布局及商业落地;8月24日,苹芯科技完成近千万美元Pre-A轮融资,据悉,本轮融资将主要用于芯片研发相关工作。
从融资金额的用途我们也可以窥见,这些存算一体芯片公司有的处于团队搭建阶段,有的是正在芯片研发阶段,还有的已经到了产品线扩充和量产阶段。前几年(2019年左右)这个市场国内也就仅有3-4家崭露头角的企业,但现在存算一体这个赛道显然已经开始变得热闹起来了。
动辄亿元的资本涌入,前仆后继的玩家踊跃跳入。为何存算一体芯片市场会如此被看好?
存算一体技术(PIM :Processing in-memory)被视为人工智能创新的核心。它将存储和计算有机结合,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。
在知存科技CEO王绍迪的眼中,一直看好存算一体技术的原因有三:一是算力和运算数据量每年都在指数级增加,然而摩尔定律已经接近于到极限,每代芯片只有10-20%的性能提升。二是冯诺依曼架构的算力已经被内存墙所限制,只有解决内存墙问题才能进一步提高算力。在各种解决方案中,存内计算是最直接也是最高效的。
苹芯科技CEO杨越则认为,万物互联+的人工智能的时代已经到来。智能产品覆盖面积越来越大,产品形态的多样性将迎来爆发式的增长。我们可以预见,由于传输延迟或数据安全考虑,很多数据处理及推理运算将在端侧发生。通用性计算芯片在服务特定AI算法方面并不具备性价比优势,为AI定制的芯片将成为人工智能产业链条上的底层核心技术。存内计算作为创新性极强的芯片架构形式,由于突破了困扰业界多年的存储墙问题,且与深度学习网络运算模型中的基本算子高度契合,使得基于存内计算架构的芯片相比于市场已有的AI加速芯片,在计算效率(TOPS/Watt)方面有数量级上的提升。在智能时代里,从可穿戴到自动驾驶,功耗约束下场景里的计算效率都是永恒的主题,存内计算是解放算力、提升能效比最强有力的武器之一。
而且与其他低功耗计算,如低电压亚阈值数字逻辑ASIC、神经模态(Neuromorphics)计算和模拟计算比较,存内计算的优势也尽显。
王绍迪表示,低功耗亚阈值计算是对现有逻辑计算的功耗优化,一般能效可以提升2-4倍,但是算力相应降低,只能进行针对性的优化。而存内计算是新型的运算架构,做的是二维和三维矩阵运算,能效和算力可以提高100-1000倍。神经模态运算是为类脑算法而设计的芯片,有不同的实现方式,如模拟计算、数字计算、无时钟计算、或者存算一体的实现方式。其实上述三种技术解决的问题是不一样的。后摩尔时代下,无法通过工艺的提升来优化整体算力,异构计算和新架构变得更为重要。
在杨越看来,与亚阈值数字逻辑相比,存内计算仍工作在正常供电范围,可具有实现高算力的可能性。存内计算的原理就是模拟计算。存内计算与神经形态计算有交集,就是用存内计算的原理去实现synaptic connection,可提供高平行度、高能效地synaptic weighting的计算。
存内计算的三条主流技术路径
在认准了赛道之后,就是选择存内计算的技术路径。对于存算一体技术来说,处于多种存储介质百花齐放的格局,如SRAM,DRAM,Flash等。目前选择SRAM介质阵营的主要有苹芯科技、后摩智能、九天睿芯。Flash阵营的代表玩家有知存科技、合肥恒烁、美国的Mythic。DRAM阵营的还相对偏少。
那么该如何选择合适的技术路径,这些技术路径又有何特点、壁垒和优势呢?苹芯CEO杨越认为,技术路线选择的出发点有多个,包括工艺成熟度、加入计算功能的复杂度及结果精度、向上对神经网络算法要求的支持程度、以及落地成本等方面的考虑。
从器件工艺成熟度来看,知存科技认为,SRAM、DRAM和Flash都是成熟的存储技术,其中SRAM可以在先进工艺上如5nm上制造,DRAM和Flash可在10-20nm工艺上制造。密度方面,Flash最高,其次是DRAM,再次是SRAM。
在电路设计难度上,存内计算的DRAM > 存内计算SRAM > 存内计算Flash ,在存内计算方面,SRAM和DRAM更难设计,它们是易失性存储器,工艺偏差会大幅度增加模拟计算的设计难度,尤其是当容量增大到可实用的MB以上,目前市面上还没有SRAM和DRAM的存内计算产品;Flash是非易失存储器,他的状态是连续可编程的,可以通过编程等方式来校准工艺偏差,从而提高精度。而近存计算的设计相对简单,可采用成熟的存储器技术和逻辑电路设计技术。
而谈到量产难度方面,王绍迪给出的答案是DRAM> Flash >SRAM。
“我们过去做过多种存算一体介质的流片,包括Flash、SRAM、RRAM和MRAM。最终发现,Flash是密度最高的存储介质,Flash的单个单元可以存储的bit数最高(8-bit),这两个特点都可以大幅度增加存内计算的算力。”王绍迪告诉笔者,所以从密度、可量产性、能效层面多方面综合考量,知存科技最终选择了Flash介质。
杨越表示,Flash和SRAM 路线各自具备优势。我们选择SRAM方案出于几个考虑:一,SRAM的速度是所有memory类型中最快的,且没有写次数的限制,对于追求快响应的场景几乎是必选。二,SRAM可以向先进制程兼容,从而达到更高的能效比,更高的面效比等。三,苹芯现阶段的研究工作可大幅提高SRAM相关计算精度,从而降低了对相关上层算法补偿的要求。四,相对新型存储器,SRAM的工艺成熟度较高,可以相对较快的实现技术落地与量产。
存内计算的最终产品形态
在讨论存内计算最终的产品形态之前,让我们首先来看下存内计算的卖点究竟是什么?它应该被认为是一个有计算能力的存储器,还是高能效比的计算模块。如果是前者,则往往需要和台积电等有志于推动下一代存储器的厂商一起合作。而后者则更倾向于以AI芯片的形式做design house。
苹芯CEO杨越认为,存内计算硬件的出现,本身在催生一种编程观念上的革命,也就不能再套用传统的功能上分离的思维去理解。从功能上来说,存内计算既可以存储数据,又可以做特定的计算,本身并不矛盾。从programmability的角度讲,面向AI 的存算一体技术的出现将会很大程度上影响人们如何去编写软件,或者说为更有效率的去编写软件提供了一个非常好的基础平台和机会。
知存科技王绍迪则表示,两种方案所需要解决的问题不一样:1)有算力的存储还是冯诺依曼架构下的存储器,做一些加密类和低算力计算,从而节省存储与CPU之间的带宽。存内计算是非冯诺依曼架构,它通过存储单元完成二维和三维矩阵运算(这类运算占据了AI中95%以上的算力),提供大算力,它存储数据是为了高效完成运算,本质不是做存储器。
对于存算产品,有芯片和IP两个选择。而目前我们观察到,大多数企业也都是以芯片为主。
“存内计算相关的IP是很难做的,存内计算针对的是运算场景,不是存储标品。需要针对不同场景的算力、成本、功耗需求提供更多种类的IP,并且针对不同的工艺去设计,需要投入的周期很长。从测试方面,客户集成存算IP的芯片需要增加特殊的测试步骤。我个人觉得以单芯片和Chiplet形式提供存算一体算力是*的方式。”王绍迪告诉笔者。
存内计算的应用市场广阔,但仍需时间的打磨
关于存内计算的具体应用市场方向,王绍迪认为,存内计算的发展类似于存储器的发展路径,随着设计能力不断提升,工艺不断成熟、算力每年可以有5-10倍提升,能效每年会有1-2倍提升,成本每年会有30-50%下降,未来的存算产品可以用在大多数AI应用场景,因为它成本算力能效都可以做到*。
苹芯CEO杨越的观点是,存内计算的应用方向及产品形态将随着存算技术成熟度而演进。中早期产品将更多的出现在端侧对低功耗和高能效有强烈需求的场景下。值得强调的是,随着智能城市、智能生态等应用的普及,我们预测从边缘端接入的智能设备的市场体量将快速增长,应用场景的多样性也将不断快速拓展。长远地看,存算产品的适用范围也可能会延伸至超大算力领域,我们将持续积极探索,为未来的应用场景做好技术储备与战略规划。
据了解,目前苹芯已开发实现了多款基于SRAM的存内计算加速单元并已完成流片,处于外部测试和demo阶段,公司正与智慧穿戴、图像物体识别领域的头部客户做技术验证。
“存内计算技术的发展是一条追求高能效计算的重要技术路线,如何有效控制存内计算接口是一个重要挑战。谁拥有兼顾计算密度与存储密度的存内计算硬件架构,谁就拥有了打开高能效计算的金钥匙。未来的存内计算一定会渗透到大大小小各种规模的应用中去,大大提高计算的能量效率。”杨越坦言道。
在王绍迪看来,存算一体面临的挑战就是时间,还有很多事情没有做,这些都需要通过不断的实验去验证和解决,需要时间,它还在发展初期,有广阔的提升空间,这也是我最喜欢它的一点。距离存算一体的能力极限可能还有1000倍的空间,每年我们都能把它提升2-5倍,随着算力提升和成本降低,它应用场景会越来越广。
写在最后
“存算一体”打破了运行70年的冯诺依曼架构,将成为AI时代主流的计算架构。目前国内外在存算一体方面都处于起步阶段,存算一体正处于学术界向工业界迁移的关键时期,所以这可能是我们发展国产芯片的另一大重要方向。
21229起
融资事件
4435.76亿元
融资总金额
11659家
企业
3220家
涉及机构
512起
上市事件
6.45万亿元
A股总市值