人类历史经历了农业、工业和信息革命,现在正处于人工智能革命的进程之中。
对此,中国计算机学会高性能计算专业委员会秘书长,中科院计算所研究员张云泉博士在接受 DeepTech 采访时表示:“农业社会靠体力,工业社会靠机器,信息社会靠互联网,而人工智能社会要靠 ‘算力’,谁能占领 ‘算力’ 的制高点,谁就有了引领社会发展的基础。”
因此,代表算力巅峰的 “超级计算机” 就显得至关重要。
上月,最新的全球超级计算机 TOP500 发布,榜单显示有高达 45.2% 的计算机来自中国,且中国超算占全球在榜总算力的 25.6%。
在我们为此高兴的同时,日本超级计算机 “富岳”(Fugaku)首次上榜即荣登榜首的消息,也让不少国人感到了压力,认为中国超算又落后于人,可事实真的如此吗?
张云泉向 DeepTech 作出了如下结论:富岳以半 E 级(算力 > 1000 PFlops)超算的未完成形态冲榜,旨在打中美 E 级超算一个时间差,短期成为 “独孤求败”,但等到年底或明年,中美超算一出,就会变成 “独孤必败”。
2021 年是业内公认的 E 级超算元年,中国已有神威、天河 3 号、曙光三条不同技术路线的 E 级原型机交付,如今正向顶峰进击。
榜单上的中国
中国超算的起步并不算晚,有这样一个 “玻璃房子” 的故事一直被人们提起。
上世纪 80 年代,中国石油工业部物探局曾重金购买了一台 IBM 大型机,但这笔交易的附加条件非常苛刻。
首先,为防止中方 “窃取技术”,美方将该主机安置在一间玻璃房内,对其实施了 24 小时全方位监控,且进出钥匙交由美方控制;其次,机器的启动密码也由美方掌握,并且规定中方应定期向美国提交系统日志。
中国超级计算机的先驱们,就在这样的环境下扬起了风帆。
1983 年 12 月,我国第一台每秒钟运算超 1 亿次的计算机——“银河” 研制成功,这一成果使中国成为继美国、日本之后,第三个能独立设计和研制超级计算机的国家。
图 | 银河 1 号
此后,“银河 2 号”、“银河 3 号”、“银河 4 号” 接踵而来,算力从也每秒 1 亿次上升到 1 万亿次。自此,中国成为少数能发布 5 至 7 天中期数值天气预报的国家之一。
1992 年,中国研制成功 “曙光 1 号” 超级计算机,开辟了另一序列。
后来,由于大规模并行计算机代替向量机成为重点发展方向,中国开始研发 “神威” 系列超级计算机,并于 1999 年推出了神威 1 号。另外,2002 年联想集团也推出了名为 “深腾” 的机群并行机。
至此,中国最重要的四个超算系列都登上了历史舞台。
图 | 中国超算数量变化图
2005 年,中国超算算力突破 10 万亿次/秒;2010 年,“天河 1 号 A”代表中国第一次登上了全球超级计算机榜首,但优势地位转瞬即逝,被日本超算 “京” 取代。
2013 年 6 月到 2018 年 6 月,“天河 2 号”、“神威·太湖之光” 连续雄踞 TOP500 榜首长达 5 年。此后,美国超算 Summit 夺魁,神威一直处于榜单前三的位置,直到上个月富岳的出现。
在近 40 年的发展历程中,中国在美国不断施压、禁运、技术封锁的外部条件下,研制成功了多台以神威为代表的核心部件全部国产化的超算,目前,中国所有的上榜超算中,已经完全看不到 IBM 的身影。
那么我国的超算在世界范围内处在一个怎样的位置呢?通过对 TOP500 榜单的进一步分析或许能有一个直观的了解。
图 | TOP500 国家-数量 饼图
图 | TOP500 国家-算力 饼图
可以看到,入围 TOP500 的超算中,有高达 45.2% 的计算机来自中国,并且中国占总算力的 25.6%。
值得注意的是,算力图中,中国、美国、日本的占比均在 25% 左右,主要是由于富岳的偷袭导致,待中美的 E 级超算一出,日本预计将回到不足 10% 的状态。
所以,在短期内,超算领域将是中美两强领先的战场,不太可能有其他国家参与的机会。
图 | TOP500 供应商-数量 饼图
图 | TOP500 供应商-算力 饼图
再看供应商的分布图,联想、曙光、浪潮三家头部供应商制造了 62.4% 的超算设备,提供了 26.8% 的算力。
数量占比和算力占比差距比较大,这一方面反映我国的超算制造业份额虽然占优(TOP500 中 321 台设备为中国制造),但总体上单台超算性能比不上美国和日本,即使这两个国家分别只有 113 台和 29 台设备在榜。
查看 TOP500 中国区榜单可以看到,除了神威·太湖之光和天河 2A 分别排名第 4、5 名比较靠前之外,前 100 名超算设备中国仅占 6 台。这足以说明我国超算设备整体仍处于中低水平,发展不够均衡。
所以,我国在超算领域,无疑是“超算大国”,但和“超算强国”仍有一定距离,后续应该着重发展质量,而非数量。
“未完成” 的富岳
富岳,是日本最高峰富士山的别称,可见其缔造者寄予的厚望,而它也确实不负所托。
作为“京”的后继机型,富岳于 2014 年起继续由富士通与日本理化学研究所共同开发,部署在兵库县神户市中央区港湾人工岛上的理化学研究所计算科学研究中心内,本预计于 2021 年正式运行,如今它的提早到来,也让我们有机会一睹真容。
这是一台由接近 730 万 CPU核心,4.87 PB 内存组成的超级计算机,值得注意的是,它所搭载的富士通自研 A64FX CPU(48+4 core)采用了超算罕有,而智能手机设备常用的 ARM 架构设计开发,这在 TOP500 冠军中史无前例。
作为半 E 级超级计算机,富岳的性能的确非常强悍。
在 7nm 制程、高带宽存储、“豆腐-D”互连的共同加持下,常规 Linpack 测试结果达到 415.53 PFlops(千万亿次浮点运算每秒),在业界普遍认为更接近实际应用场景的 HPCG(高性能共轭梯度基准测试)中更是达到了 13.37 PFlops,这个数字相较中国及美国的在榜超算都有一个不小的提升。
然而算力的提升并非没有代价。
由图可见,中国的神威超算于 2016 年 6 月首次上榜,而富岳则是 2020 年 6 月上榜,间隔了 4 年时间。
对于计算机来说,4 年是个很长的时间。
摩尔定律告诉我们,集成电路上可容纳的晶体管数目,约每隔两年便会增加一倍;虽然实际这个定律走得时快时慢,但总体的趋势和量级还是非常准确的。
图 | 全球主要晶圆厂制程演化图
据报道,“神威”项目于 2012 年 7 月进行项目调研,2014 年 3 月科技部正式立项,2015 年 12 月 31 日主机研制成功,2016 年 6 月登上 TOP500 榜首,虽然没有对外公布具体制程,但外界推测,其很可能采用了中芯国际的 28nm 制程工艺。反观富岳这边,官方公布其采用的是台积电 7nm 的最新技术。
这个差距有多大呢?
大概是从 iPhone5S(28nm)到 iPhone XS(7nm)之间的差距。DeepTech 根据台积电官网对制程的描述整理了如下图片。
图 | 台积电芯片制程信息图
可以看到,随着制程的降低,芯片的运行速度不断提升,能耗大幅降低。虽然台积电的数据并非绝对,但每一层较下层动辄 15% 的效能提升还是让人为之惊叹。
除了芯片制程上的代差,在内存方面富岳的可选项也明显优于神威。
据官方资料显示,富岳采用的是名为 HBM2 的高带宽存储器,每个芯片的内存带宽高达 1024 GB/s。而神威则采用的是四通道 DDR3-2133 存储器,连 DDR4 都不是,每个芯片总带宽仅为 136.5 GB/s,不足富岳的七分之一。
假如神威也能够使用 7nm 制程的芯片和 HBM2 的内存,再与富岳同台竞技,那么究竟谁更胜一筹可能要打个大大的问号。
虽然富岳在先天条件上占尽优势,但作为冲击 E 级超算的种子选手,其能耗上的表现却算不得优秀。
根据官方数据,在 Linpack 测试中,排名第一的富岳每兆瓦提供的算力为 14.67 PFlops,而排名第二的 Summit 每兆瓦提供的算力为 14.72 PFlops,几乎相差无几,而如果要达到 E 级算力,富岳在现有体系下的理论能耗将超过 68 兆瓦。
这是一个不可接受的数字,业内普遍认为这个数字应该在 40 兆瓦以下,而 E 级超算之所以迟迟未出,能耗过高是一个很关键的瓶颈因素。
值得玩味的是,本来 ARM 架构的芯片素来以低能耗、低发热著称,但即便有 7nm 最先进制程工艺加持,富岳在能耗方面依旧没有体现出任何优势,这一点非常值得学者们深究。
图 | 富岳 Fujitsu A64FX CPU (48+4 core)
最后,富岳还面临着制造成本过于高昂的问题。
据日本理研计算科学中心负责人松岗聪透露,“富岳” 的造价约为 10 亿美元,约合 70 亿元人民币。与此同时,排名第二的美国超算 Summit 造价为 2 亿美元,排名第四的神威造价为 2.73 亿美元。
据外界估算,富岳采用的 HBM2 内存每个 G 的报价大概在 9-16 美元,因此仅内存一项的成本就在 4300 万美元到 7700 万美元之间。
虽然富岳的算力目前大幅领先,但如果对应的造价也成倍增长的话,就失去了竞争的意义。
毕竟,即便是以神威的技术体系,砸钱将算力冲到 E 级也是完全能够做到的,但假如这样,又有什么乐趣呢?
中国超算的应用
超算,被称作 “国之重器”。
发展至今,超算已经广泛应用在密码研究、核爆模拟、武器研制、气象气候、石油勘探、海洋环境、航空航天、宇宙模拟、材料科学、工业设计、地震模拟、人工智能、深度学习、生物医药、基因工程、动漫渲染、过程控制、数据挖掘、金融分析、公共服务等等领域,以及各种 “高、精、尖” 的前沿科学中。
发展超算不仅是各国综合国力在科技方面的体现,更是解决国家经济建设、社会发展、科学进步、国家安全和国防建设等领域一系列重大挑战性问题的重要手段。
图 | 中国 HPC TOP100 行业应用领域
然而超算相关生态的培养并非一朝一夕能够完成。曾几何时,天河 1 号超算工程被曝闲置 1 年,天河 2 号落成后,算力使用长期处于较低水平。
张云泉对 DeepTech 介绍道,目前中国主流的几个超算中心算力利用率已经达到 60%-70% 左右,基本处于较理想工作状态。
但他继续说道,现阶段我国的超算软件发展相对滞后,商业软件方面基本属于空白,少有的几款较知名自研软件,在功能和稳定性上也还有所欠缺。想要快速发展,一定要转变思想,加大超算经费投入中软件的占比,力争最终达到软硬件 1:1 的目标。
“最近国产超算软件在并行优化方面进步不少,以往的软件大都只能同时使用几千到几万个核心,大量的核心被闲置无法利用,而现在已经有七八款软件能够调用‘神威·太湖之光’全机,十几款软件能够调用半机”。张云泉强调,这种优化对科研工作非常重要,往往能够将计算结果所需时间进行数量级级别的缩短。
DeepTech 特地在中国国家网格官网上查看,其列出的软件包含商业软件 8 款(排除神威系统编译器),开源软件 31 款(无一明确标注为国人开发),而国产自研软件仅 4 款。
中国的确在超算软件领域任重道远,不过也不必过于悲观,自 2016 年中国团队摘得超算软件设计“戈登·贝尔”奖桂冠,实现零的突破开始,中国前进的脚步只会越走越快。
奔向 E 级
E 级超算已经成为世界各国在超算领域竞逐的明确目标。
美国能源部(Department of Energy)已推出 ECP 计划,投入 18 亿美元研制 3 台 E 级超级计算机,另外 18 亿美元研发超算应用。预计 2021 年上半年将正式完成第一台的开发。
日本富岳自不必说,年底或明年初一定会将剩余的算力补足,到时候以全新面貌再次出现。
中国这边,神威、天河3号、曙光的三个不同技术路线的 E 级原型机均于 2018 年完成了交付。
曙光总裁厉军在接受《财经天下周刊》采访时曾表示,这三台超算背后的团队都很厉害,且各有所长。
神威背后的江南计算所有很好的 CPU 技术,其他方面的国产化也做得很好;天河背后的国防科技大学有很好的网络技术,在自主高性能互联网络方面非常独到;曙光则有很好的应用架构设计能力、工程设计能力,并且曙光作为上市公司,在商业化方面做得最好。
2021年注定成为 E 级超算元年,不论哪方将榜一的桂冠斩落,亦或有黑马出现,都值得期待。
-End-
参考:[01] 维基百科:富岳 . https://zh.wikipedia.org/wiki/富岳_(超级计算机)
[02] 维基百科:神威 . https://zh.wikipedia.org/zh-cn/神威·太湖之光
[03] TOP500 . https://www.top500.org/
[04] 日本富岳夺得 Top500 超算榜首,我们来聊聊超算行业现状 . https://mp.weixin.qq.com/s/rgEiQNnTQXYXwSUq_jFehw
[05] 中国超算,问鼎世界之巅 . http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2018-12/18/content_410693.htm
[06] 盘点我国在超算领域进展与机遇 . http://pdf.dfcfw.com/pdf/H3_AP201907311341787991_1.pdf