内存阵列内部优化处理技术 (OPTIMA)优化AI

作者:

日期:2024-05-05

DARPA(Defense Advanced Research Projects Agency,国防高级研究计划局) 微系统技术办公室正在征集研究提案,以开发快速、紧凑且节能的基于晶体管的乘法计算元件 (MCE,Multiply Compute Element) 以及具有创新信号处理电路的大面积、节能的乘法累加宏 (MAMMultiply Accumulate Macro) 以展示快速、紧凑、节能且可扩展的内存计算加速器 (CIMAcompute-in-memory accelerator )。

 

DARPA 微系统技术办公室寻求创新提案,以研究和开发基于超大规模集成 (VLSI) 制造兼容方法的快速、紧凑、节能和可扩展的内存计算加速器。 基于冯·诺依曼架构(von Neumann architecture)的加速器计算能力有限且执行延迟较长。 具有乘法累加宏 (MAM) 的内存计算 (CIM) 架构可以解决这些限制并极大地提高性能。 然而,这些实现受到存储器件的大物理尺寸和外围电路的高功耗的阻碍。 内存阵列内部优化处理技术 (OPTIMAOptimum Processing Technology Inside Memory Arrays) 计划旨在展示具有创新信号处理电路和架构的面积和功率高效的高性能 MAM。 DARPA拟议的研究应该调查能够实现科学、设备和系统革命性进步的创新方法,特别排除的是主要导致现有实践状态进化改进的研究。

背景

基于冯·诺依曼架构的通用处理器的计算能力效率以每瓦每秒 10^12 次操作 (TOPS/W) 表示,受到内存和计算之间数据移动的限制,特别是对于矩阵向量乘法密集型应用。  张量处理单元 (TPUs,Tensor processing units ) 和图形处理单元 (GPUs,graphics processing units )提供了利用并行性的替代架构,但它们的功效和吞吐量仍然受到数字计算和数据传输的限制。 最近,人们探索了内存计算 (CIM) 架构,通过使用内存器件作为乘法计算元素 (MCE) 来最大限度地减少数据移动和计算能耗。 MCE 输出的并行矩阵求和计算由乘累加宏 (MAM) 执行。 具有用于高度并行处理的 MAM 阵列的 CIM 架构可以极大地提高基于 AI 的图像识别等应用的性能。 然而,CIM 实现受到 MCE 存储器件占用空间大以及针对传统(即非 CIM)电路架构优化的 MAM 高耗电外围电路的限制。

为了使 CIMA 具有 300 TOPS/W 的计算能效和 20 TOPS/mm^2 的计算面积密度(分别比最先进的水平高 15 倍和 4 倍),OPTIMA 计划的执行者应同时解决以下两个技术挑战( TC): TC1:实现小型、节能的 MCE。 最先进的 (SOA) CIMA 采用静态随机存取存储器 (SRAM) 作为 MCE 存储器件来执行乘法运算。为了增加信号余量并克服 SRAM 高泄漏电流造成的不准确性,MCE 通常使用大型八晶体管 (8T) SRAM,这会导致访问能量和时间下降。 由于 SRAM 是 1 bit位器件,n bits位乘法通常需要 n^2 个 8T SRAM 单元,从而导致较大的执行能量(~40 pJ/操作)、较长的执行时间(> 18 ns),更重要的是,较大的 MCE 占用较大的空间,这将 MAM 面积效率限制为 < 5 TOPS/mm^2 。  TC2:实现小型、可扩展且节能的 MAM 架构。 具有数字数据处理功能的 SOA MAM 架构需要许多耗能且晶体管密集的模数转换器 (ADC)。 因此,SOA MAM 的外围电路占据了 50% 的面积,消耗了 80% 的总功率,严重限制了 MAM 的能效约 20 TOPS/W。

为了克服技术挑战并实现高面积效率的 MAM,MCE 和 MAM 方面的创新是必要的。 OPTIMA 致力于开发具有单晶体管封装的超大规模集成 (VLSI) 制造兼容的基于晶体管的 MCE,利用晶体管跨导增益来实现紧凑且高速(< 1 ns 读取访问)的内存乘法计算元件。 示例设备包括但不限于具有内置存储功能的晶体管和具有标称单晶体管占用空间的三维(3D)MCE。 OPTIMA 还寻求实现创新的信号处理电路和架构,例如但不限于混合域和随机计算 处理,并与 OPTIMA MCE 共同优化以最小化外围电路的面积和功耗,实现高度可扩展 、高密度、低功耗和高速 MAM。 还将考虑其他基于 VLSI 技术的创新方法,例如能够满足 OPTIMA 计划指标的 3D 集成 CIMA技术。

 

《利用边缘智能塑造物联网的未来:边缘计算如何实现下一代物联网应用》

使用 OPTIMA 优化 AI

2020 年代,人工智能在整个技术堆栈中的使用出现了巨大的洪流。 尽管社会效益显著,但计算需求却需要更多的电力。 OPTIMA(内存阵列内部最佳处理技术)旨在开发内存计算加速器架构,以提高密集处理和功效,以支持人工智能等应用。 OPTIMA 计划由 DARPA 于 2023 年启动,由 DARPA JUMP 2.0 SUPREME 中心导师 Jason Woo 博士领导。 项目执行者已于 2024 年初公布,祝贺 SRC 成员 IBM、著名大学佐治亚理工学院、加州大学洛杉矶分校、普林斯顿大学和半导体制造商英飞凌。 总而言之,OPTIMA 计划在计划运行的近 5 年内可能会达到 7800 万美元。 这项投资在解决第五个重大转变(计算能源与全球能源生产)方面向前迈出了一大步。

OPTIMA 计划的迷人之处在于 2023 年的资助机会是如何演变的。 OPTIMA 利用最初在 STARnet 的 SONIC 和 LEAST 中心开发的技术,并在 JUMP 的 ASCENT 中心进一步完善。 2013 年至 2017 年间,SRC 和 DARPA 共同发起了 STARnet,这是一个公私合作伙伴关系,旨在解决威胁微电子行业长期增长的基本物理限制。 在 STARnet 的 SONIC 中心,研究人员 Naresh Shanbhag 和 Naveen Verma 开始探索内存计算电路。 与此同时,STARnet LEAST 中心的研究人员致力于研究负电容场效应晶体管 (NC-FET),该晶体管后来演变为铁电场效应晶体管 (FeFET)。 由 Suman Datta 和 Sayeef Salahuddin 领导的 ASCENT 中心的 SRC/DARPA 联合大学微电子项目(2018-2022)对此进行了进一步研究。

SRC 和 DARPA 之间的长期合作伙伴关系创造了巨大的价值和重大的技术进步。 持续的探究和完善过程带来了 Verma 教授的 EnCharge AI 初创公司的成功,他与 IBM 的 Kailash Gopalakrishnan 合作,后者是 STARnet 行业领导层的重要成员。 如今,构成这项工作核心的研究人员遍布整个 SRC/DARPA JUMP 2.0 计划,并继续探索同一领域的基础研究,使用基于 FeFET RRAM、NAND 或 DRAM 的内存计算或近内存计算来解决限制和发现新应用。