如何推进高校算力服务建设?我们邀请了清华大学高性能计算研究所高级工程师张武生、北京大学高性能计算平台主任工程师樊春、浙江大学信息技术中心总工程师张紫徽、华中农业大学作物遗传改良全国重点实验室生物信息高性能计算平台工程师刘浩、赛尔网络有限公司副总经理蔡哲对高校算力难点挑战、建设模式、队伍建设、未来发展等话题进行了深入探讨。
(相关资料图)
01
难点与挑战
张紫徽
算力“新基建”面临多重挑战
算力平台作为“数字新基建”,在高校发挥着越来越大的作用。GhatGPT等人工智能应用的爆发,也对算力提出了更高的要求和期待。算力在高校已经不是可有可无的存在,而是学校教学、科研、管理的重要基础。高校算力服务建设面临不少挑战:
第一,算力基础设施建设还远远不够。比如机房建设,机房往往需要很长的建设周期,很多高校在建设时依据的标准并不像专业机房那么高,所以后期的运维管理就会存在很多限制,而学校对基础设施的持续投入比较保守。
第二,算力服务人才队伍面临挑战。高校从事算力服务的人员在专业建设上的引领能力普遍偏弱,很多情况下都只是在做基础的运维工作。而运维服务、安全服务、容量规划,以及冗余、容灾等相关工作,已经远远超过了高校算力队伍的能力范围,在团队规模和技术上与企业相比都存在一定差距。
第三,算力服务在应对新需求方面能力不足。很多情况下,面对院系教师提出的新科研场景需求,超算中心现有的能力往往难以应对,比较被动。
第四,高校对算力服务本身的认识有待提升。无论从资金、人员投入还是学校重视程度上看,都存在不少欠缺。
张武生
规模越大挑战越多
高校的科研和教学对算力的需求一直在逐年增加。有几种因素促进了算力服务设施的建设:
第一,人才培养和引进力度加大,高校在优势专业培育和开拓方面不断进展,留在或流入教学科研领域的高水平人员越来越多,这使得算力设施的建设有了需求基础;
第二,国家和地方政府的持续支持,其中国家层面对教学科研仪器的引入和研发支持力度一直都很大,地方政府也会为高校的计算设施建设提供支持;
第三,算力设施在学校设备管理中一般归结为大型科研仪器,仪器建设的投入与高校教学科研水平提升显然是正相关的;此外就是社会需求,大数据和统计学习在产业领域的应用得到回报,反过来影响人才培养和科研课题的设立,也推动了高校算力平台的建设。
但与此同时,高校算力平台建设也面临不少挑战。从平台硬件投入来看,高校算力平台从传统的同构型CPU平台转向了异构型的CPU和加速计算混合平台。平台的规模越来越大,绝对能耗随着硬件升级逐年增高,系统架构愈加复杂,应用软件越来越丰富、版本迭代更加频繁。计算平台价值高、生命周期短、能耗大,如何确保每一台设备投入都能在学科建设中发挥最大效用,如何客观评估平台的使用效益、解决应用运行中产生的各种瓶颈等,都是高校建设算力平台面临的挑战。
刘浩
算力无法满足数据增长需求
对华中农业大学作物遗传改良全国重点实验室来说,算力平台主要的作用是服务于科研任务。计算平台助力实验室完成生物学研究的重要手段基因组测序,并对测序的数据进行存储分析。
我们需要非常大的存储和计算来分析些数据,因此,算力增长跟不上数据的增长,是实验室算力平台面临的难题。基因组测序的成本下降速度往往比IT领域硬件的摩尔定律还要快很多,导致我们的算力硬件投入往往跟不上数据产出。尤其是近几年,数据由10年前的几百T,扩展到十几PB,相应的计算能力虽然在同步增长,但远远跟不上数据产出的速度。
除了对存储容量要求大,存储性能也非常重要,否则算力服务的效率就会下降很多。平台在购买硬件设备时要格外重视存储性能,才能更好地为用户服务。
樊春
创新的土壤“浪费”是必要的
从高性能计算的发展趋势来看,高校算力平台建设面临着以下挑战:
一是算力大众化(HPC/AI for Everyone)带来使用挑战。当前,算力正变得越来越廉价,越来越多的用户开始使用算力。这表明算力走向大众化,大量传统学科纷纷开始在研究中使用算力。以北京大学为例,很多文科生也开始使用高性能计算平台。在此情况下,传统的HPC软件接入就显得过于复杂,使用门槛过高,需要一种更简单便捷的HPC算力使用方式。
在这方面,北京大学自主研制的开源算力中心门户和管理平台SCOW(Super Computing On Web)通过简化集群软件部署流程、统一平台管理模式、提供图形化操作界面、降低用户使用门槛,实现算力中心资源易管理、易使用的目标,提高算力资源使用效率。
二是算力资源使用不均衡。我们看到,近一两年来,国内高校迎来超算项目建设的浪潮。当高校开始纷纷建设算力平台,就会出现算力资源使用不均衡的问题,有的学校算力不足,有的却使用不饱和,这就需要“削峰填谷”,实现算力资源利用效率最大化。
三是面临“双碳”目标的挑战。实现碳达峰和碳中和,实现绿色发展,是中国对国际社会作出的庄严承诺。而算力设备能源消耗巨大,在实现“双碳”目标时面临诸多挑战。面对该挑战,如果在能够产生绿色电能的地方建立数据中心,是一个最合理的方向,通过光纤直达等技术“消除”数据中心和用户之间的距离。但在这一点上,我们还面临着决策和决心不足的问题。
四是算力融合的挑战。当前,各地纷纷建立超算中心、智算中心,但在很多情况下,这些超算和智算中心是分别建立的。而当前有很多科研项目既需要超算算力,又需要智算算力,从应用的需求上看就需要将这两种算力融合。这就要求我们进一步研究相关技术,保证超算中心和智算中心更好地融合成为计算中心(算力中心),达到1+1>2的效果。
五是技术更新的挑战。RoCE(RDMA over Converged Ethernet,基于以太网的RDMA技术;RDMA,远程直接数据存取)网络替代传统的IB(InfiniBand,无限带宽)是一种趋势。但其推广可能存在一定困难,因为人们往往习惯旧有的方式而不愿意改变。
六是打造创新土壤面临挑战。创新的土壤,“浪费”是必要的。在日前举办的ChatGPT研讨会上,中国工程院院士赵沁平指出:“ChatGPT的出现和火爆使我们再次看到美国科技企业作为国家技术创新主体所具有的强大创新能力。创新型科技文化是创新型国家的灵魂因素。
基础研究和科技创新是不能追求效率的,而我们对基础研究采用的评价基本还是以效率为重的工程性评价方法。”这给我们带来的启示是,在做研究时,科研人员需要充足的资源、良好的国际交流环境,能够自由探索,并得到方向性的指引。这些都是算力发展的过程中需要突破的困境。
02
建设模式探索
刘浩
自建模式有效保障数据安全
对于华中农业大学来说,经过对比和权衡,我们觉得自建算力平台、自己管理/运营平台的模式对学校来说更合适。主要基于两方面的考量。
一是成本问题。对老师们来说,使用实验室自建的平台,收费大概只有外部商业服务的10%~20%。二是安全问题。我们实验室的数据量非常大,使用自建平台,可以有效保障数据传输和数据安全。
张武生
科研和服务相结合
清华大学的科研计算平台是校内惠及学科门类最多、支撑用户最广的科研平台之一。计算平台由实验室与设备处指导建设和运行,计算机科学与技术系负责技术保障,按照大型仪器进行管理,其建设得到了学校持续支持。
与大多数大型科研仪器的管理类似,采取科研和服务相结合的建设运行模式,一方面是与各研究课题组合作,开展应用研究,同时也依托和支撑高性能计算和系统结构学科的研究。
来自应用领域的算法问题往往是高性能计算的研究热点,反过来高性能计算所开发的移植、优化、并行化技术又可促进各学科领域应用软件性能和效率的提升。我们与材料、地学、生命科学等学科深入合作,共同开发并行算法和软件,同时也承担高性能计算和系统结构方面研究课题。
樊春
推动算力市场发展
高校算力服务大概有以下几种模式,一种是自建算力平台,一种是使用云平台算力,一种是使用超算专业服务公司提供的计算服务。
另外还有一种模式是算力市场。当前的算力市场是把应用作为一个市场,其算力组成还是算力服务商自建的算力。未来,算力服务商本身也应该市场化,也就是不仅在算力服务商平台上有多种软件的市场化,还有一个平台能够容纳各种算力服务商来提供算力服务。这种形式是目前市面上比较缺乏的。我们在建设算力网络时,可以在这方面做一些突破性的研究。
张紫徽
建设众筹式混合云
高校超算的运营模式跟学校的规模、算力发展的阶段息息相关。第一种是自建模式,能够满足学校的一些教学科研和治理服务基本需求。第二种是混合模式,有自建平台,也有和企业合作的公有云平台,其中自有机房可以承载核心应用和私密应用,其他应用则可以用云平台实现。
除了基本的算力需求,还可以满足突发的场景和需求变化。第三种模式,与学校其他部门的资源大户合作,用信息中心的操作系统去调度其超算设备。实际上,第三种模式需要学校规模足够大,对机房规模、电力的要求很高,建设周期也特别长,实现起来有一定难度。
以浙大为例,浙大算力平台的建设分为三个阶段。第一阶段,自建算力服务,专有云平台;第二阶段,将专有云和公有云打通,形成混合模式;第三阶段,学校信息技术中心与CAD&CG国家重点实验室联合打造了“浙大云—图形计算平台”。平台作为校内首个众筹式混合云,具有更完善、可扩展和更节省的特点以及低成本、灵活性和超高集成优势。
未来,我们希望可以将此众筹式模式从“1+1”拓展到“1+N”,进一步服务校内师生日益增长的科研需求。更进一步,可以将学校之间的算力平台连接起来,形成众筹的生态圈。学校之间的算力“众筹”有很多好处,规模小的学校其算力资源可能用不掉,而规模大的学校,算力又可能远远不够,将不同学校的算力打通,可以更好地统筹利用算力资源。
当然,除了算力合作,未来我们希望能更进一步做跨校间的科研合作,打造科研协作的大平台。比如国际大科学计划(DDE计划),就是国内外众多高校和学者共同参与的项目。可以预见,未来这种跨越千山万水,由不同国家/地区、不同学校的学者共同参与的、基于算力协同的大科研方式,能够让人们合作参与大规模科研,随时汇集科研成果,了解科研进度。这就是算力驱动科研范式变革的典范。
蔡哲
发挥教科专网作用助力教学科研
强大的超算能力可以更好地支撑科研成果的产出。我国高校非常重视算力建设,整体需求旺盛,亟需高质量的算力服务。对于研究型大学而言尤为明显。但总体来看,目前我国大多数高校的算力建设仅集中在学科、学院或项目层面,拥有校级算力平台的高校还是少数,对于算力资源的整合能力有待提升。
站在企业的角度看,高校算力服务大概分为两类,一类是智能AI算力GPU,还有一类是超算CPU,两者特性不同,能够完成的任务也不同。学校会根据需求不同,选择不同的算力服务。
赛尔目前正在致力于算力建设服务,在服务高校算力方面的最终服务目标是发挥教科专网作用,助力教学科研。
以阶段划分来看,整体建设规划为“三步走”:
第一阶段,为学校提供算力设备及安装调试,这也是赛尔正在做的工作;
第二阶段,规划是要推进算力调优服务和算力资源引进,包括引进CPU、GPU的原厂资源,赛尔是AMD在中国教育行业的独家合作伙伴,还在申请英伟达NPN的服务资质,并也在与英特尔逐渐建立联系,这一阶段整体是通过对厂商芯片的调优来服务学校的算力;
第三阶段,未来要发挥教科专网作用,建立教育科研行业的算力专网以及资源平台,做到算网融合,为学校提供算力异地同步,在学校突发算力需求时,能够通过算力专网引入外部资源。
03
人才团队建设
樊春
团队建设受限于制度和管理
当超算平台所属单位为信息中心/网络中心时,其人员往往是计算机相关专业出身,具备较强的IT背景,但对于数学、物理、能源、力学、材料等应用背景却很难介入。而当超算平台所属单位为应用院系时,其人员具备比较好的专业应用背景,但计算机素养却有所不足。
但人才队伍建设是一个比较复杂的问题,面临着制度、管理等诸多方面的限制。比如在招聘员工时,人事部门对人才的学历和专业都会有详细要求,这就可能把合适的人才拒之门外;此外,与互联网公司相比,高校的待遇普遍偏低,网络中心与院系相比又很难给出相应的编制,导致很难招到高水平的人才。这些都是人才队伍建设中面临的具体困难。
在现实中,因为软硬件技术发展得很快,一些新的软件能够一定程度上减少集群管理工作的压力。另外,如果能把高性能计算集群云化部署,或采用购买服务的方式,也能减缓人才队伍缺失的压力。
张紫徽
打通人才队伍链条
高校超算人才队伍,需要各个类型的人才。
一是专家团队。在超算平台建设初期,由顾问型的专家团队来指导如何建设机房、配置设备、分配电力、容灾设计、消防安全管理,等等。
二是运维团队。在超算平台建成后,日常运维工作可以采用与企业合作的方式,将相关职能外包给企业。
三是科研服务团队。科研服务团队应了解教师用户的具体需求,做好沟通,在算力配置、经费管理、软硬件选择等方面提供优质的解决方案。
四是学科人才团队。学科人才应该充分了解学科,让不同学科的老师们形成学科交叉、科研交叉,打造学科融合的大项目。
五是宣传队伍。宣传队伍能够将学校算力建设的实践经验总结提炼,形成案例,再向更多的老师们推荐。
由此,各个人才队伍将学校超算平台从开始建设,到日常运维,到未来推广的整个链条打通,形成环路,自然会有更多的教师用户选择使用平台。
刘浩
重视专业背景和开发能力
高校超算团队的建设,有以下几方面值得考量。
第一,除了计算机之外,需要对行业领域比较熟悉的人才。比如我们实验室,需要由基因组测序相关专业背景的人来协助管理和运营,在跟用户沟通时就会比较顺畅。为了打造有专业背景的人才队伍,建议学校超算中心多跟相关学院或专业合作,打造相关的项目或比赛,在这个过程中发现人才、留住人才。
第二,高校超算中心对应用的开发能力还比较欠缺,往往只能提供基础的算力资源和服务,对用户应用的开发和优化还有很多不足,因此,具备开发能力的人才也是高校超算中心所急需的。
第三,无论是资源、技术、还是管理方面,各高校都有自己的特色和可借鉴的经验,高校超算平台之间应该加强各方面的交流,取长补短。交流体现在很多方面,其中在人才培养上,超算中心很多时候依赖传统的传帮带,缺乏专业的交流培训机制,这一点有很多加强空间。另外,面对人才编制等方面的限制和要求,高校可以转变观念,与科研单位、企业更多地合作交流,把部分管理、运营的工作交给专业的公司去做。
04
未来发展思路
张武生
东数西算为高校打开新思路
人们常说超算是国之重器,计算平台对高校来说也是重要的大型科研设备。从外部条件来说,高校建设算力平台普遍面临能耗、空间等条件限制。就内部机制而言,还是要让建好的平台充分发挥效用。在硬件建设过程中,应结合学校的学科特点充分论证,先落实具体的用户和应用特征,再结合计算设备的硬件结构妥善规划,淡化对硬指标的追求,强化应用成果方面的评价,确保以应用成果为导向实现投资效益最大化。
东数西算政策、算力网络技术为计算平台建设提供了一个新的思路。国外高校也有这种建设模式,比如波士顿大学、哈佛大学、MIT、东北大学、马萨诸塞系统大学等几所高校联合在Holyoke这个地方建设了一个以消耗清洁能源为主的马萨诸塞绿色高性能计算中心(MGHPCC),目前已具备服务两万多师生及研究人员的科研计算需求的能力。
国内高校,也可考虑借助国家东数西算政策探索类似的平台建设思路,国家的信息基础设施已经提供了相当好的条件,高校平台参与东数西算在技术上没有难度,可能需要一些具体的顶层政策设计。
算力网络的内涵不仅限于科研计算平台的互联互通,应该是可以作为促进实体产业发展的更高水平的基础设施。特别是随着大数据和统计学习技术与产业深度融合,一场生产力平台的变革正在发生。
算力网络的基础是网络,核心是应用,推动高校算力服务和算力网络建设,还是得立足于各校学科特色,加强跨学科交叉合作和应用能力方面的研发,建设高速低延迟网络,促进互联互通和数据共享,以持续投入支持自主开发应用软件,形成活跃的科研应用社区。以人工智能技术为驱动的新一代生产力平台、联邦学习、隐私计算等应用对算力基础设施的需求没有上限,这方面算力网络相关的技术研发和设施建设也大有可为。
高校算力平台建设和服务关键得看成效,要重视从需求论证到规划设计建设全过程,尽量避免为建而建、先建后用的思维。平台的硬件成本和运行成本都比较大,我们强调平台的使用效益,用得好不好跟建得合不合适有很大关系。所谓细节决定成败,比如,冷却、互联网络、存储系统这三个子系统在算力平台建设中,我们往往不会把它当作核心设备,但每一个子系统设计规划不到位都会影响整个计算平台有效运行。因此建设算力平台之前有必要仔细规划和论证好每个技术方案细节。
樊春
善用现有的工作基础
高校算力服务的前景非常广阔。下一步,对于没有高性能计算算力的学校来说,需要做好规划,建设高性能计算平台或购置高性能计算的算力服务,同时在人事和管理制度上也要做好相应的规划;对于已有高性能算力平台的学校来说,则要考虑如何进一步用好平台,站在整个学校的高度和视角,探索出最优的平台管理运行制度。
近来,ChatGPT等人工智能应用的火热,表明人工智能到了一个新的发展阶段,从传统的只能解决机器视觉和语言处理等个别领域问题,到现在解决跨模态的问题。在这样的背景下,更多的学校老师会投入到人工智能领域,作为学校的支撑部门,要顺应时代潮流,为学校的人工智能发展提供相应的支撑服务,包括经费、人员、制度等在必要的情况下都可以向AI领域倾斜。
如果一个高校同时维持人工智能平台和算力平台,一般需要配置两套班子、两套设备,对大部分高校是非常昂贵的投入。因此,高校可以考虑建立人工智能和超算的融合平台,建立统一的管理制度,包括资源分配制度、财务制度、收费制度、费用支出制度等,可以方便同时处理高性能计算任务和人工智能算力任务,还可以由同一个团队把两个平台一起管好用好。
此外,高校算力服务还应该善用我们现有的一些工作基础。比如,赛尔网络和教科网在各个高校之间建立了很好的带宽连接,包括IPv6连接;而北京大学和赛尔网络共同打造的CARSI体系,是非常重要的基础性认证软件平台。
刚才提到,高校之前需要“削峰填谷”,实现算力资源利用效率最大化,这就需要我们充分利用这些已有的基础性硬件网络设施和认证平台,再结合专门的算力资源管理工具,将学校之间的算力打通,为国内高校算力服务做好基础的储备。除了高校之间的交流打通,高校与社会化算力之间也要加强交流,综合评估各种社会算力资源,共同纳入学校的算力生态体系中来。
张紫徽
让算力建设成为变革源泉
未来,在高校算力服务发展上,有以下几个方面要多加关注:
一是加强软件建设。在算力支撑科研上,要更多关注老师们的科研环境,提供更加精准的科研环境和软件,从而对算力进行更好的调度和更高效的使用。
二是构建数据中心。在满足教师的算力任务后,要想办法把沉淀的数据存储并利用起来。由此,基于数据的协同和驱动,可能也会引起很多科研范式的变化。
三是形成算力社区。我们在建设算力时,不能只局限于算力本身,也要想办法构建它的上层应用,如数据中心、模型中心,甚至再上层的开发者社区。
对于算力建设,学校领导的重视和支持非常重要;在软件配置、优先支持等方面也要允许小范围的试错,最终达到百花齐放的状态;此外,持续的投入也很关键。
未来的一流大学,除了学科科研之外,谁对数字能力的把握更好,谁就能够脱颖而出。我们需要用更大的格局、更高的战略眼光来看待算力服务,它不是一个部门自己关起门来建机房的事,而是未来整个大学变革的巨大源泉。
蔡哲
提供优质算力实现算网融合
未来高校算力服务的前景非常广阔,中国教育和科研计算机网作为教育领域的专网,应该发挥自身优势,聚焦服务教育科研。为高校提供优质的算力服务,是教科网和赛尔网络的使命和责任。赛尔网络也会持续加大投入力度,并在以下三个方面发力:
一是整体按照“三步走”规划推动算力建设,从简单的设备供货及安装调试,向算力服务优化演进,最终发挥教科专网的作用,实现算网融合。目前赛尔正在做的是算力资源共享平台建设,目标就是为高校提供优质的算力资源服务。
二是推动算力服务性能力的输出,依据学校特定需求,有针对性地做好网络层面的服务。以第三代互联网FITI为载体,未来还会根据高校学科分类来做细分专网,促进资源共享共建,进一步推动科研成果融合。
三是赛尔内部会不断加强算力队伍建设,培养专业团队,为高校做好算力服务和维护。
整理:项阳、陈荣
责编:项阳
Copyright 2015-2022 魔方网版权所有 备案号:京ICP备2022018928号-48 联系邮箱:315 54 11 85 @ qq.com