英特尔迈出了一大步使用RISC-V IP,创业公司SiFive受益,站上风口

作者:

日期:2022-09-22

分析总结

  • 英特尔与SiFive达成了一项新的许可协议,在英特尔的新代工厂中使用其RISC-V IP。这是菜单上的第一个非英特尔 IP。英特尔可能会收购 SiFive。
  • 这是删除 x86 指令集,并正在成为英特尔的锚点的重要的第一步。
  • 但即使英特尔收购SiFive,它仍然在他们的IP产品组合中留下了一个巨大的ARM大小的漏洞。这种情况必须加以纠正。
  • SiFive助力 谷歌TPU,美国宇航局,张量龙,瑞萨电子,微芯片等;
Intel

英特尔处于十字路口

自从他在去年二月份成为英特尔(纳斯达克股票代码:INTC)首席执行官以来,我一直在Twitter上对帕特·盖尔辛格进行一些轻描淡写的恶搞。我的信息每次都是一样的:英特尔需要开始摆脱x86指令集,他们几十年的成功就是建立在x86指令集之上的。x86 指令集自 1978 年以来一直与我们同在。43年和两次大修之后,它在CPU中占据主导地位的日子正在慢慢结束。如果英特尔和AMD(AMD)将自己与x86联系在一起,那么这将是一个拖累它们的锚点。

这是一个关于三个不同的指令集的故事,CPU是围绕它们设计的:x86,ARM和RISC-V。未来看起来非常像属于后两者。英特尔仍然没有采取行动开始设计自己的基于ARM的芯片,但最近的举动已经将它们投入到自己的RISC-V平台的游戏中。ARM现在更重要,但我仍然认为这是英特尔迈出的一大步。

我截取了五月的Twitter交流,因为当时我感到很奇怪,一家开发RISC-V CPU的公司SiFive会觉得有必要回应我关注不力的匿名Twitter帐户。我开始开玩笑地告诉同事们,我们应该期待英特尔在任何一天收购SiFive。这个笑话是在我身上,因为五周后,彭博社有这样一个标题:

然后,两周后,我们收到了SiFive和英特尔的联合公告。第一部分是SiFive宣布其新的行业领先的RISC-V CPU和内核。但也有这个:

英特尔研究员兼知识产权工程团队首席技术官 Amber Huffman 表示:“我们很高兴成为 SiFive 的主要开发合作伙伴,向共同的客户展示其 P550 [SiFive 的高性能 RISC-V CPU 内核] 在我们的 7 纳米 Horse Creek 平台上的出色性能。通过将英特尔领先的接口IP(如DDR和PCIe)与SiFive的最高性能处理器相结合,马溪将为尖端RISC-V应用提供有价值且可扩展的开发工具。

这里的消息是,英特尔正在授权SiFive的高端内核来制造片上系统或SoC,这可能是高端物联网产品和开发平台的目标。我仍然希望他们购买SiFive,以及像安培计算这样的ARM播放器,并制作他们的IP和人才英特尔的。但这是一个开始,希望不是结束。我对英特尔的评级将保持中立,直到我看到帕特·盖尔辛格的更多内容。也许从一个关注不力的匿名帐户在Twitter上进行一些轻微的恶搞会有所帮助?

三种指令集架构

指令集是硬件和软件之间最基本的接口。这些是非常基本的函数,如处理数据,内存,数学和逻辑。所有其他内容,从硬件和软件方面,都从这些非常基本的指令开始。在高层次上,所有指令集都是一样的,以不同的方式处理相同的任务。不同的微架构可以从相同的指令集构建,就像英特尔和AMD对x86指令集所做的那样。

1978年的原始x86芯片,8086

x86 是我们正在讨论的三个指令集中最古老的一个。第一个x86 CPU是1978年的英特尔8086。1981年,IBM(IBM)选择其继任者8088作为CPU为其PC供电,其余的都是历史。从那时起,x86 已经从 16 位架构发展到 32 位架构,现在是 64 位。在此过程中,它为英特尔和AMD赚了数十亿美元。还有数十亿美元留给他们开采,但竖井开始干涸。

肯·希里夫收集并拍摄了旧技术的精彩照片。左边的照片来自Ken,右边是苹果的宣传照片

下一个指令集是ARM,它始于1980年代中期苹果(AAPL)与橡果(ARM最初代表“橡果RISC机器”)和LSI的合资企业,为牛顿生产低功耗CPU。但重要的时刻是苹果在2007年选择了三星(OTCPK:SSNLF)ARM芯片为原始iPhone供电。其他人都跟着他们,现在基于ARM的芯片比x86多得多。2020 年,ARM 客户出货了 250 亿台基于 ARM 的 CPU。这相当于每天6800万,或每秒约800。截至2020年底,ARM CPU的安装基数约为1900亿。它们很可能遍布您的整个家庭。他们还在2020年出货了10亿个GPU,现在累计出货了80亿个。

ARM不生产芯片,也从未与客户竞争过。他们制作了指令集,核心和参考设计,并将其授权给苹果,英伟达(NVDA),高通(QCOM),三星,博通(AVGO),Marvell(MRVL),甚至英特尔和AMD。几乎所有从事芯片设计业务的人都是ARM被许可人。

直到最近,这些芯片还主要进入智能手机和平板电脑,在这些设备中,保持低功耗是设计的关键部分。但你从肯·希里夫(Ken Shirriff)推文中的这两张照片中看到了35年的进步。ARM CPU保留了其功耗优势,但现在与英特尔和AMD相比,其性能相同或更好。它们的购买成本也低得多。十多年来,英特尔和AMD的客户一直在乞求他们制造功耗更低的x86芯片,同时不牺牲性能。两者都无法交付,但现在ARM做到了。

2020年是ARM芯片真正开始进军PC和数据中心的一年,这是英特尔的面包和黄油。

  • 苹果宣布他们将把整个Mac系列转移到基于ARM的苹果芯片上,并发布了M1 Mac。毫无疑问,这些是他们在产品线的低端制造过的最好的Mac。但从另一种思维方式来看,它们也是我们将看到的最糟糕的苹果硅Mac。他们更强大的表亲将在2021年和2022年发布。苹果只授权ARM指令集,并制造自己的内核和SoC。据彭博社报道,苹果占英特尔2019年收入的8%。这将不到1%。
  • 高通公司收购了Nuvia,这是一家致力于ARM核心的公司,据称与苹果公司一样好。努维亚由杰拉德·威廉姆斯创立。威廉姆斯从2012年到2019年领导苹果的芯片设计部门,在此期间它成为世界上最好的芯片设计部门。他目前是高通公司的工程高级副总裁。到2023年,我预计高通公司基于ARM的Windows / Chromebook平台将取得巨大飞跃,以及他们的智能手机/平板电脑系列,并为他们提供数据中心芯片。
  • 亚马逊在 AWS 上启用了基于引力子 2 ARM 的实例。这些在拥有大量云计算账单的公司中越来越受欢迎。与基于英特尔或 AMD x86 的实例相比,公司可以节省高达 40% 的计算费用。
  • 最大的举动是英伟达提议从其现任所有者软银那里以400亿美元收购ARM。他们的目标是创建一个数据中心野兽,围绕他们自己的GPU构建,即他们在Mellanox收购中获得的DPU,ARM CPU位于堆栈的底部。我仍然相信这笔交易不会得到中国、美国甚至英国的监管机构的批准,这些监管机构在这里都有影响力。英伟达仍然可以实现他们作为ARM被许可人的雄心壮志,但这增加了障碍。

所有这一切都比我预期的要早得多。

英特尔在其最新的年度报告中是这样描述 ARM 威胁的:

其中一些竞争对手已经开发或利用了竞争的计算架构和平台,例如ARM架构,当此类架构和平台的客户和应用程序开发人员的生态系统大规模增长时,这些架构和平台可以为竞争对手产生有益的网络效应。例如,基于ARM的产品正在PC和服务器中使用,这可能导致ARM生态系统的进一步发展和增长。我们还与来自OEM,云服务提供商和其他公司的内部开发的半导体竞争,其中一些是客户。其中一些客户将自己的半导体设计与其软件资产垂直集成,和/或针对特定计算工作负载定制其设计。例如,在2020年,苹果推出了PC产品,利用自己内部开发的基于ARM的半导体设计来代替我们的客户CPU。

听起来很严肃,但我仍然想知道帕特·盖尔辛格打算对此做些什么。

第三个指令集是RISC-V,相对于其他两个指令集,它非常新,只是在1.0版本候选版本上。RISC-V是一个非常强大的指令集,基于它的微架构将继续像ARM芯片一样变得更好。它的主要优点是它是开源的,因此使用它没有许可费。目前,它主要用于物联网,其中互操作性和网络效应远不如手机,平板电脑,PC和服务器等设备重要。

英特尔和SiFive

一段时间以来,我一直热衷于英特尔或AMD购买SiFive,以启动他们的RISC-V工作。目前尚不清楚这是否会发生,但没有报道称SiFive拒绝了英特尔的提议。无论如何,英特尔正在签署的是开发围绕SiFive的高性能内核和他们自己的7纳米封装构建的英特尔品牌SoC。它将包括一堆其他单元,至少是PCIe和高速内存驱动程序,这些单元在新闻稿中已经提到。这表明英特尔还沿着SiFive当前的HiFive产品制造了一个支持Linux的开发板。

相比之下,这些高性能RISC-V内核在上街时可能是最快的RISC-V内核,看起来就像在ARM较慢的高效率内核附近。但是,这款新的英特尔芯片仍将是一款功能极其强大的物联网芯片,也许它的目的不止于此。看起来确实有一个RISC-V开发平台即将到来,但除此之外很难说。我全文引述的英特尔的声明在这一点上并不明确。看起来SiFive的整个IP产品组合都将在英特尔的7纳米封装上提供。

但是,即使英特尔抢走了SiFive,这仍然给他们的IP组合和人才留下了一个巨大的ARM大小的漏洞。Nuvia不在桌面上,但安培计算仍然是私有的。AnandTech最近测试了英特尔新的Ice Lake数据中心芯片,在4月份的比较中,它们包括安培80核ARM数据中心芯片和AMD芯片。

在这里,我们来看看多核性能,对于大数据中心负载更为重要:

阿南德科技。左边的整数测试;右侧浮点。灰色 = 手臂;蓝色 = 英特尔;红色/橙色 = AMD。

您看到的顶部数字是所有双插槽逻辑板设计(图表中的“2S”),上面有两个CPU,包括160核安培板。随着英特尔的绊脚石,AMD现在领先,安培紧随其后,英特尔紧随其后。请记住有关此比较的一些事项:

  • Ampere是一家小型私营公司,其研发预算只是英特尔和AMD的一小部分。
  • 这些是英特尔和AMD刚刚发布的最新芯片。Ampere有一个新的128核芯片,没有进入这个比较。
  • Ampere的芯片在全通径下使用更少的功率,这是数据中心运营支出的关键因素。
  • 安培的价格还不到英特尔和AMD芯片价格的一半。

英特尔可以收购这家公司,并以更低的价格购买比他们提供的更快的数据中心芯片,以及随之而来的所有IP和人才。它的成本将比新的铸造厂低得多。

大局观

Pat Gelsinger的第一个重大公告是新的英特尔第三方包装代工厂,将于2023年准备就绪。我对代工厂没有问题,除了他们没有采取任何措施来解决英特尔的大问题:

  • 他们现有的铸造厂严重落后于市场领导者TSMC(台积电)。
  • 来自 ARM 的威胁。

如果没有更广泛的战略,包括在内部开发ARM和RISC-V芯片,英特尔就有可能沦为二流的TSM。到2023年英特尔启动并运行其7纳米工艺的新代工厂时,TSMC将拥有4纳米和3纳米的高容量,2纳米紧随其后。更小的工艺意味着更小的晶体管,这意味着更多的晶体管可以封装在同一片硅片上。

如果没有针对 ARM 和 RISC-V 的互补内部设计,英特尔就有成为 TSMC 的风险,但不会那么好。TSM现在的市值比英特尔高得多,即使有这样的情况:

英特尔和 TSMC的收入变化

因此,这是使英特尔再次成为伟大创新者的一大步,正如Gelsinger所说,这是他的目标。但这只是一个步骤。这是第一个将在新代工厂菜单上列出的非英特尔IP,但如果英特尔更大的研发预算推动这一点,那就更好了。即使他们收购了SiFive,它仍然会在他们的IP组合中留下一个巨大的ARM漏洞。

因此,我对英特尔的看法保持中立,直到我看到更多。还有更多。

SiFive拥有一系列CPU核心IP,在边缘,物联网和AI芯片方面具有坚实的吸引力,谷歌,NASA,张炬,瑞萨电子,微芯片,Kinara等各种公司都取得了重大胜利。许多人认为RISC-V缺乏软件生态系统,认为这是数据中心和客户端采用的重要障碍,但RISC-V正迅速成为所有不暴露给操作系统的地方的标准。例如,苹果的A15有十几个基于Arm的CPU内核,分布在芯片上,用于各种非面向用户的功能。半分析可以确认这些内核正在未来几代硬件中积极地转换为RISC-V。

SiFive的核心IP

SiFive具有各种核心IP,其E,S和U系列内核具有不同的成功程度。尽管他们的欺骗性营销,但P系列在其高端P系列内核上并不那么成功。今天我们想谈谈X280内核,它迅速取得了胜利。虽然我们这些书有点偏向于下一代NASA高性能太空飞行CPU,但最重要的胜利是谷歌。SiFive在AI硬件峰会上宣布与谷歌在TPU上进行合作。

SiFive的关键产品

尽管处于有序状态,但内核具有相对较高的性能。矢量管道非常宽,并实现了完整的RISC-V矢量1.0规范。此外,它还具有支持bfloat,矩阵乘法和量化的扩展,使其能够针对AI进行优化。此 CPU 的性能足以在汽车应用程序中作为应用程序处理器运行,或在数据中心应用程序中作为虚拟机管理程序运行。张拓的每一个天证处理器模块都包含 X280 CPU。甚至还有一个具有ISO认证的汽车版本可以在锁步模式下运行,我们相信这将部署在丰田汽车中。

SiFive的关键IP

SiFive可以提供Arm无法提供的东西,灵活性。客户可以通过将硬件加速器直接添加到矢量寄存器文件中来修改其内核。这可用于将 X280 内核扩展到 DSP、图像信号处理和 AI 等应用。这就是谷歌合作的用武之地。

谷歌已经使用第三方ASIC设计服务与博通的TPU和VCU。内部团队专注于其用例的差异化内容。在TPU的情况下,它是矩阵乘法单元和芯片间互连。谷歌正在通过外包冗余工作来对其TPU采取明智的方法。他们现在不再从头开始构建所有内容,而是使用X280的VCIX模式。

Google的TPU

谷歌将利用X280的基本标量和向量,允许推送/弹出向量指令。这个更丰富的集合将使函数能够被覆盖。可编程性要好得多,因为它现在可以更轻松地执行python并运行条件路由。谷歌保留了MXU的性能,但RISC-V内核提供的可编程性和易于理解的CPU编程模型。MZU 具有 ~100 个周期的高延迟,而 CPU 可以在几个周期内同时执行标量和矢量代码。

我们有机会问谷歌,为什么他们想把CPU作为他们每个加速器单元的一部分。这具有每个CPU内核约0.5mm2的显着面积影响。他们的MMX单元每单元约1mm2,这意味着50%的开销。答案是有充分理由的,主要集中在可编程性和灵活性上。

我们本可以使用一个可怕的一次性定序器,但是您喜欢用低级组装对机器进行编程吗?

克里夫·杨,谷歌TPU架构师;美孚联合创始人

很明显,RISC-V将吃掉非面向用户的核心世界。我们将为您留下吉姆·凯勒展示的这张幻灯片。

RISC-V将赢得下一轮比赛。里斯克夫工作。里斯克夫是开放的。Risc-V是创新发生的地方。RISC-V将超越其他架构。

RISC-V