亿邦号

大国博弈,不可回避的“超算之战”

鹿鸣财经

07-15 14:06
+ 关注

文|强家宏

编辑|封成

在《三体》里,大刘有这么一段描述:

“这些显示器太旧了。”雷迪亚茨说。

“但它们后面是世界上最强大的计算机,每秒可以进行五百万亿次浮点运算。”

这时,一名工程师来到艾伦面前,“博士,AD4453OG模型这次走通了。”

每秒500万亿次浮点运算的计算机,出现在“面壁计划”里,这是第二位面壁者雷迪亚兹看到的人类最强算力,用于顶尖的核爆模拟。

2019年,人类的最强超算,是《三体》所描述的297.2倍。

人类算力的发展速度,比科幻还科幻。

1

计算的本质是模拟。

20世纪60年代,“东方红一号”上天最大的拦路虎,就是如何精确地计算出卫星在太空中运行的轨道。因为我们当时所能使用的,是功能和效率都十分落后、需要手工操作的半自动手摇式计算机,计算员们24小时不间断地像工厂里的工人一样“三班倒”才终于算出了“东方红一号”的轨道数据,据说计算任务紧迫之时甚至动用了算盘。

先辈不易。时至今日,航天任务中庞大的计算量早已超出我们的想象,倘若我们的计算技术还停留在手工计算的那个年代,动员全国人民一起帮航天部门计算,假设每人每秒可以完成一次运算,航天任务要求在1秒内完成的运算量就足够全国人民算上两三个月。

好在我们有了超级计算机,它所做的事情,叫做“高性能计算”(High performance computing,HPC)。

现在世界上已知的最强计算机“顶点”,它的运算速度可以达到每秒14.86亿亿次的浮点运算速度,由美国能源部麾下的橡树岭国家研究室于去年6月研发。简单科普一下,你可以大致将浮点运算理解成对小数进行计算的运算模式。

一言以蔽之,超算从本质上来说是一个大规模的计算工具。众所周知,个人计算机一般只有一颗CPU(GPU),每颗CPU内通常只有2-8个物理核心,一般的应用场景如游戏、视频背后的程序只需用到少量的浮点计算,普通的PC当然可以满足。但需要处理超大计算量的科学计算往往需要进行大量复杂的浮点计算,这时PC的计算能力就显得捉襟见肘了。

大道至简。一个很符合逻辑的办法就是,一台机子不行,那就把千千万万台机子连起来啊,正因如此,业界关于超级计算机的完整定义是“由超过百个处理器组成的、能够完成普通PC机和服务器不能完成的大型复杂课题的计算机。”

超算如要溯源,避不开图灵。没错,就是你想到的那个“计算机之父”。

2014年,一部名为《模仿游戏》的英国电影上映,主角正是由“卷福”饰演的阿兰·麦席森·图灵。

故事围绕盟军破译德国密码系统“英格玛”展开,“英格玛”的复杂之处在于,每天深夜自动切换密码,有10^16种不同的变化,用人工计算的方法根本来不及在下一次切换前破解。

图灵是当时的数学理论高手,应召而来。他在分析了大量的德国电文后,发现许多电报有相当固定的格式,以此为突破点,他想到了用“候选单词”这一方法来破译“英格玛”电文,并提出了“唯有机器才能击败机器”的理论。

他率领军情六处的一众科学家秘密研发破译密码的机器,并于两年后成功破解了德军密码。

丘吉尔对图灵的贡献给予了至高的评价:“图灵是二战中最大的功臣,他的研究扭转了欧洲乃至整个世界的战局!”

这是人类最早利用计算机破译密码的例子。

如果用今天最快的超算“顶点”暴力破解的话,大概就是不到0.1秒的事情。

时间来到1976年3月,在美国伊利诺斯大学两台不同的IBM 360电子计算机上,两名数学家哈肯和阿佩尔用了1200个小时,作了100亿个判断,终于在6月份发现没有一张地图是需要五色的,从而证明了“四色定理”,并在《伊利诺伊数学杂志》发表了《任何平面地图都能用四种颜色染色》的论文,轰动世界。

速度,当然是超算的核心,运算速度更快意味着一切繁复的运算和模拟会更快、更准确。用“穷举法”证明猜想的正确与否,是超算为解决疑难杂症另辟的蹊径。

2

1976年,中国的第一台超级计算机,运算峰值速度只有每秒1.6亿次。

改革开放之后,许多尖端科技对华解除了封锁。那时候流行的一句话是,“造不如买,买不如租”,我们的政策也变成了“以市场换技术”。

好景不长。1989年,美国政府开始严格限制对中国出口高性能计算机,除了必须用天价采买之外,还要把计算机放在透明的玻璃房里,而钥匙在美国人手中,每次使用的用途都要向美国人报告,请求批准。

事实就是,从超算出现到2009年将尽70年的时间里,TOP 1就一直是美国人的专利,和中国没有半毛钱的关系。

于是有了意在提高我国自主创新能力的“863计划”。

在超级计算机界,每隔一段时间就要筛选出全球计算能力最强的500台超算,发布到一个被称为TOP 500的排行榜中。2001年前,TOP 500中没有一台是中国的超算,转机出现在2004年,曙光公司研制的“曙光4000”十万亿次计算机进入TOP 500排名前十位。2008年,“曙光5000”百万亿次计算机再次进入TOP 500前十位。

这一时期雄踞榜首的是IBM的“蓝色基因”。

2009年算是中国超算发展史上的里程碑。这一年,国防科技大学研制的“天河一号”千万亿次计算机,使我国成为继美国之后世界上第二个研制成功千万亿次计算机的国家。

2010年6月,曙光公司研制的“星云”千万亿次计算机首次登上TOP 500的第二位,及至下半年发布的榜单,升级后的“天河-1A”力压群雄拿下全球超算TOP 1,实测运算速度可以达到每秒2570万亿次。

21世纪的第一个十年,国际超级计算能力达到P级计算(1 PFlops,千万亿次计算,每秒钟可执行10^15次双精度浮点计算)级别,中国人第一次站在全球算力的顶端。

科学研究、军工行业、能源领域、生物医药、气象预报、工业制造,这些都是超算传统的应用领域,各国都在为下一性能的目标——E级计算(1 EFlops,百亿亿次计算,每秒钟可执行10^18次双精度浮点计算)作准备。

2011年9月,俄罗斯联邦原子能总署批准了《2012-2020年百亿亿次超级计算机为基础的高性能计算技术构想》;2013年,欧盟启动“Horizon 2020”计划,其中“面向百亿亿次的 高性能计算”的探索基金项目将在2014-2020年投入7亿欧元;2014年6月,日本文部省 宣布启动E级计划,用于国家高性能计算基础设施的建设;2015年,奥巴马政府以“国家战略计算推进计划”为超算规划出了一个长期的、多机构参与的战略远景。

2011年,日本K-computer超越天河一号成为世界第一,这也是人类历史上第一次突破每秒一亿亿次计算能力的超级计算机,2012年登顶的,是美国的“泰坦”。

行百里者半九十,中国人拿过一次冠军,想要再次登顶就不是难事。从2013年6月开始,“天河二号”连续6次位居TOP 500的第一名。

芯片无疑是超级计算机的核心部分,一台超算至少装有几千枚甚至上万CPU和GPU芯片,同时配备特殊的操作系统,负责管理这些芯片之进行一系列复杂的运算。国防科技大学于2010和2013年建造的“天河一号”和“天河二号”超级电脑,主要使用的是由Intel和AMD提供的芯片。

面对中国超算的崛起,2015年4月,美国政府宣布制裁中国四家超算中心,并禁止向中国超算中心出售Intel的Xeon Phi超算芯片,“天河二号”不得已调整技术路线,采用国产矩阵2000替换Intel的Xeon Phi,耽搁了升级计划。

值得我们额手相庆的是,16年接替“天河二号”位置的,是采用全国产CPU的“神威·太湖之光”,它还获得了有超算应用界诺贝尔奖之称的“戈登贝尔奖”。

直到2018年11月,由美国能源部麾下的橡树岭国家研究室研发的“顶点”才实现了美国人重返TOP 1的愿望。

可来自中国超算的声音早就不容忽视了。在TOP 500的榜单上,来自中国超算的制造厂商已经从四年前的7.4%的份额,逐渐增长为接近50%,在市场份额上也逐渐和美国并驾齐驱,2018年6月,全球超算TOP 500联想独占117台,这是来自中国的制造商第一次拿到超算提供平台份额上的世界第一。

数据来源:网络公开信息

时隔一年之后,全球超算TOP 500榜单在法兰克福发布,中国境内有219台超算上榜,美国以116台位列第二,日本、法国、英国和德国依次位居其后。

这是2017年11月以来,中国超算上榜数量连续第四次位居第一。

在此次榜单上,联想、浪潮和中科曙光分别以173台、71台和63台的数量位居全球超算制造商前三位,人民网微博以“中国超算:仅一个联想,就在数量上超过了美国”为题,将消息传回国内。

大国崛起,理应如此。

3

中国超算的研发机构有四个,三个在北京,一个在长沙。在长沙的是国防科技大学计算机研究所,两次问鼎世界超算冠军的“天河一号”和“天河二号”都是标准的“长沙制造”。

北京的三个超算研发机构分别是国家并行计算机工程技术中心、中科院计算技术研究所,以及联想数据中心集团。其中,16年登顶世界的“神威·太湖之光”由国家并行计算机工程技术中心研制,中科院的超算品牌是“曙光”系列,联想的是“深腾”。

制造世界上最快的超级计算机固然了不起,但真正推进产业应用才是关键。联想作为一家商业公司,在帮助用户“挖掘算力潜力”上堪称极致。

“联想会All in AI,全面拥抱智能化,不仅开发丰富多彩的智能终端,针对不同行业的smart IOT的设备,还将聚焦于超级计算、云计算、边缘计算。”这是联想集团CEO杨元庆的说法。

夏日的北京,散热系统进入端的温度在32摄氏度左右,与最高45摄氏度的水温容忍度有着高达13摄氏度的温差。相比传统风冷散热技术,采用水冷技术的集群效率提升4000多倍,节省了40%的制冷散热成本,节电量可达100万度。

更重要的是,这为平台扩充计算、存储和网络设备带来了总计超过100KW的配电额度,极大地提高了数据中心计算密度,数据在这种时候也许会有更强的表达力,由联想提供的水冷高性能计算系统理论峰值是100%,最后释放出来的算力达到92.7%。

用北京大学计算中心主任张蓓话说就是,“这次联想水冷高性能计算系统的表现令人惊喜,能够有效提升学校的科研支撑能力,提升学校在国家重大项目上的竞争能力,提升学校办学实力和高端人才的吸引力。”

正因如此,联想的超算产品在全世界都有着广泛的应用。由联想数据中心联合英特尔设计制造的“超级慕尼黑-NG”(SuperMUC-NG)位列全球最强超算第九名,这一超算系统包括近6500个节点,可节省能耗超过45%,将帮助德国最大的超算中心——巴伐利亚科学院莱布尼茨超级计算中心解决来自关键环境、天体物理学和生物医学领域的挑战。

“联想的超算技术不仅仅是放在实验室里面做理论研究,而更多的是与行业的应用相结合,与客户的需求相结合,为客户带来真正的价值。”联想数据中心业务集团中国区总裁童夫尧如是说。

事实上,有十个国家的最强超算由联想交付,它们在澳大利亚、巴西、加拿大、德国、爱尔兰、荷兰、挪威、新加坡、南非和西班牙的土地上深根,发芽,长成参天大树。

P级计算之后,E级计算被誉为“超级计算机界的下一顶皇冠”。它的速度是P级计算的1000倍,业内预期的时间点是在2020年,但是,要想实现E级计算,其中最重要一个问题就是功耗。而联想的水冷技术,可以将降热效率提升到90%。

当人们站在第四次工业革命的起点上,超算的应用远不止于此。

对人们而言,想要分辨一只猫、一条狗,只需看上一眼即可。但同样的要求对机器来说,却需要耗费大量时间。因为计算机本身是无法理解图像、声音这些数据信息的,所以,如果想让机器变聪明,就要将实际问题先转化为数学问题,即数学建模和求解。

在这一过程中,计算机需要将任务分解成多个抽象层次去处理,不同的层次间又相互叠加,同时还要完成层与层之间的监督和调度,这种海量信息处理如果没有超算的协助,是不可能完成的。

因此业界有一种说法是,AI有三大要素:算法、大数据和计算力。如果人工智能是一辆车,那么算法就像发动机,大数据是负责提供动力,而计算力就是车轮,驱动AI前进。

算力是联想的强项。作为中国高性能计算的领军者,联想曾创下多个记录,包括研发中国第一个万亿次、四万亿次、十万亿次、百万亿次的超算集群,以及一步步成为世界上最大的超算制造商。

“联想已经看到,AI是信息产业的未来,联想已经赌上身家性命去押注AI。”杨元庆在联想第三届全球创新科技大会上说道。

两年后,他们在2019联想全球超算峰会上发布的深腾X9000,就是针对HPC和AI融合所作的努力。

“联想超算的未来,就是融合战略,就是将高性能计算和应用结合起来。以前是大数据,现在是大数据、人工智能的融合,随着应用的发展,可能还要融合新的东西。”这是联想首席科学家祝明发关于集群计算的设想。

2019年是联想HPC发展的第20年,他们正在前往一座更高的山峰


+1
收藏 +1
新浪微博 QQ空间
关闭
点击上面的就可以分享啦
收藏成功
/140 0