《弹性的大规模芯片设计的内置容错计算范式:基于自检、自诊断和自我修复的方法 》

作者:

日期:2023-07-12

出版:

  • 120
  • 0
  • 0

作品总结

《弹性的大规模芯片设计的内置容错计算范式:基于自检、自诊断和自我修复的方法 》

随着Dennard缩放和摩尔定律的终结,IC芯片,尤其是大规模芯片,现在面临着更多的可靠性挑战,可靠性已成为VLSI设计的支柱之一。在此背景下,本书提出了一种内置的片上容错计算范式,力求将大规模VLSI设计中的故障检测、故障诊断和错误恢复统一结合起来,以最大限度地减少资源开销和性能损失。遵循这种计算范式,我们提出了基于三个关键组件的整体解决方案:自检、自诊断和自我修复,简称“3S”。然后,我们探索了3S在通用IC设计、通用处理器、片上网络(NoC)和深度学习加速器中的应用,并展示了原型,以演示3S如何在老化、工艺变化或自由基粒子引起的各种运行时故障下响应现场硅降解和恢复。此外,我们证明了3S不仅为各种片上容错设计和实现提供了强大的骨干,而且还具有更深远的影响,例如保持优雅的性能下降,减轻验证盲点的影响以及提高芯片良率。

本书是中国科学院计算技术研究所处理器国家重点实验室近十年来广泛开展容错计算研究的成果。所提出的内置片上容错计算范式已在从卫星计算机中的小型处理器到HPC中的大型处理器的广泛场景中得到验证。 希望它将为大规模VLSI设计日益增长的可靠性挑战提供替代且有效的解决方案。


0条评论