2018-07-28

自主芯片 + 国产系统!天河三号原型机研制完成,中国超算有望重回第一

天河三号 E 级原型机机柜

编者按:本文来自于微信公众号 “量子位”(微信公众号:QbitAI), 动点科技经授权发布。

我国超级计算机又有新突破!

经过两年多的持续关键技术攻关和突破,“天河三号”E 级原型机研制部署完成,并于 7 月 22 日通过科技部验收。

“天河三号”原型机,全面搭载国产自主芯片,不再使用英特尔处理器。而且相关的操作系统、并行开发等系统也为自主研发。

由此,中国 E 级计算机将很快进入实质性研发阶段。

按计划,“天河三号”超级计算机有望于 2020 年研制成功,其运算能力将比“天河一号”提高 200 倍,存储容量提高 100 倍。

今年 6 月,中国丢掉蝉联多次的全球超算冠军宝座,美国超算时隔多年重返榜首。而“天河三号”有望在两年内,夺回这一殊荣。

自主突破

“天河三号”E 级原型机,由国防科技大学和国家超级计算天津中心等团队合作研发,并部署在国家超级计算天津中心。

2016 年,科技部结合“十三五”发展规划,分两期启动我国 E 级计算机研制计划。第一期主要为 E 级计算机关键技术研究,安排了三个 E 级机原型样机的研制;第二期为研制 E 级计算机。

其中,“天河三号 E 级原型机系统”经过两年多的关键技术攻关和突破,成为我国首个完成原型样机系统研制和部署的项目。

公开信息显示,“天河三号”E 级原型机实现四大自主创新:

  • 三款自主芯片:“迈创”众核处理器(Matrix-2000+)、互连接口芯片、路由器芯片;
  • 四类计算、存储和服务结点,十余种 PCB 电路板;
  • 新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统;
  • 系统操作、并行开发、应用支撑和综合管理等软件分系统。

在技术创新的基础上,“天河三号原型机系统”实现了可适应科学计算和数据处理多应用需求的柔性体系结构,突破了计算、访存、通信三方平衡的高性能计算结点技术。

可支持十万结点规模的高速互连和光电混合高速信号传输技术,高效靶向散热冷却技术,用户透明的高性能计算环境软件支撑等技术。

据科技日报报道,“天河”系列超级计算机,在核心关键技术上已实现了整体自主可控。

目前,通用 CPU 和加速器 CPU、互连通信路由芯片和互连接口芯片,均已装配在“天河二号”2 期系统中,打破了 2015 年美国对国防科大和“天河”系超算中心的 CPU 禁运.

而“天河三号”超级计算机将对这四大芯片进行全面升级。

这还不够,未来“天河三号”E 级超级计算机将对已经设计生产的三款计算、互联通信核心芯片再进行全面升级。

同时基于飞腾 CPU 设计新的多核 CPU,实现可支持海量数据存储的层次式存储系统,对适用高性能计算和高效大数据处理的柔性体系结构进一步优化,最终制造出新一代“天河三号”E 级超级计算机。

E 级超算

所谓 E 级计算机,是指每秒可进行百亿亿次数学运算的超级计算机,被称为“超级计算机界的下一顶皇冠”。

目前全球最快的超级计算机,峰值运算速度都在每秒十亿亿次级别。

E 级计算机有什么用?可以参考国家超级计算天津中心相关负责人的下面这段公开表述:

今后将依托“天河三号”超级计算机,构建超级计算与云计算和大数据深度融合的高性能计算服务平台,在长效高分辨率气候气象预报、大规模航空航天数值风洞、地震地质研究和油气能源勘探、生命科学研究等超大规模计算与模拟,以及涉及国计民生、信息安全的政务数据、医疗卫生、基因健康、智慧城市、交通、地理、海洋等大数据分析处理领域,发挥强大支撑和平台作用,有效推动新一代人工智能发展规划等实施和网络强国建设。

前面我们提到,中国的 E 级超算原型样机有三台。

除了天河,还有神威、曙光两家。

神威 E 级原型机由江南计算技术研究所承研,此前已经通过“预验收”。据《济南时报》7 月 20 日报道,神威 E 级原型机已经抵达济南,开始在国家超级计算济南中心开始组装调试。

预计在 7 月 26 日前后将全部安装调试完毕,进入试运行状态。

神威 E 级原型机,也是我国完全自主研发的 E 级计算机原型机,具有完全自主知识产权。

“我们花了 6000 万,构建了神威 E 级原型机,它的运行速度是 3-4 个 P(1P=1 千万亿次)。”国家超算济南中心副主任潘景山透露,“E 级计算机+E 级存储,总投入在 40 亿左右。”

这么大的投入,为尽量避免失败,所以才有 3 台原型机进行验证。

现在看起来,天河和神威的速度比较接近,这两台 E 级超算的原型机,在进度上相差无几,基本处于你追我赶的节奏。

至于曙光的 E 级原型机,目前公开信息较少。

去年 7 月,中科曙光宣布由其牵头的 E 级高性能计算机原型系统项目正式发布。

目前没有看到有更多的进展披露,有分析人士猜测,曙光 E 级原型机,采用的方案可能是“AMD CPU 国产化版本+GPU 国产化版本”。

超算竞赛

今年 6 月 25 日,新一期超级计算机 TOP500 榜单发布。

时隔五年,美国超级计算机 Summit(顶点)终于超越中国超算“神威·太湖之光”,重回排行榜第一。

Summit 由 IBM 公司负责制造,搭载了 27648 块英伟达 Volta GV100,这些 GPU 提供了超过 95% 的计算力;此外还有 103752 颗 IBM Power9 处理器。

这台超级计算机占地面积相当于 2 个网球场大小,重量相当于一架商业喷气机。

美国为了研发这台超算,也是经过多年谋划。为了争夺第一,Summit 的发布时间还提前了半年。

此次榜单发布之前,中国的“天河二号”和“神威·太湖之光”两台超算,已经接力连续五年稳居超算 TOP500 冠军宝座。

2015 年,“天河二号”在系统升级方面遇到了麻烦:美国商务部针对中国,实行了英特尔“至强”(XEON) 芯片的禁运政策。

对于突然实行至强芯片禁运的原因,美国方面给出的解释是这 4 家中国超算中心从事“违反”美国国家安全或外交政策利益的活动。

而这件事,也促成了国产芯片的发展。中国很快研发出了自主众核加速器。

其实,2002 年之前 TOP500 榜单没有任何中国超算的身影。但此后的十五年里,中国超算突飞猛进,从一穷二白一跃成为世界第一。

目前 TOP500 中,中国超算总量还是世界第一。

但近期想撼动 Summit 的冠军位置,是一个几乎不可能的事情。如果一切顺利,2020 年前后,“天河三号”等新一代超算,应该会帮助中国超算重新夺冠。

期待。

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

置顶文章