作者:赵晓勤
继Meta开源了LLaMa 2后,智谱AI及清华KEG实验室也将ChatGLM2-6B模型开源并免费商用。据统计,国内已公开发布了80+个AI大模型,其中半数都将开源。大模型的“百花争艳”也让更多的企业加入到算力扩张、模型训练与创业的热潮中。
(资料图片)
“大模型的出现让我们看到了一个新生产力的崛起。通过对大模型的研究,让人类首次发现,可以让一部分的脑力劳动由机器替代,实现人类生产力的大幅提高。因此也带来了大模型算力需求的爆发式增长。”北京并行科技股份有限公司董事长陈健博士接受至顶网记者专访时这样表示。
但他同时指出:“大模型的训练需要大量的计算资源,企业的资金投入要几十亿到上百亿元,因此在算力投入上要特别谨慎。大模型的训练是个典型的超算场景,采用超算的方式对企业来说更具性价比。租用算力方式比自建方式能让企业风险更低、现金流更充裕。”
(图:北京并行科技股份有限公司董事长陈健)
训练大模型太烧钱 租用算力更现实
企业要做自己的大模型,首先要解决的就是大模型训练的基础设施问题——算力。企业自建算力还是租用算力同样是抉择难题。陈健建议:“大模型对算力的需求极大,动辄十几亿,光电费就要几百万,企业采用租用算力是风险最小、资金利用最优的方式。”
“据我们观察,在超算领域有90%是自建的,但大模型出来后自建的比例在明显降低。一半以上都在租用。”
做大模型训练不仅是企业计算算力成本的问题,还是企业业务方向和企业资金周转效率的问题。从企业经营风险上看,陈健认为:“如果企业训练的模型是面向ToC领域,产品风险相对就比较大。如果是做面向ToB的大模型,一般能拿到用户端在算力方面的费用。这样风险会相对小。如给银行做客服大模型这种应用场景比较确定,风险也就比较小。”
从资金利率上看,对算力的利用效率也就是资金的利用率。陈健表示:“超算领域大家拼的就是算力的利用率。如果企业能大概率地确定自己算力的利用率能达到连续5年超过60%,那自建就没太大风险。在超算领域,租用的利用率能达到60%。也就是用超算三年的钱就可以买回这些算力。”
从企业经营策略上看。“服务器的生命周期大概就是5年。如果采用购买服务器的方式自建。等于将5年的钱投入一次性支付,这种情况对企业尤其是初创企业的现金流是极大的考验。如果过早地将现金都套在高折旧的资产上,这对公司的经营会带来较大的影响,不划算;从另一个角度来看,初创企业的融资是一轮一轮进行的,越在早期,同样数量的融资额所占的股份比例就越大,股权融资成本高。这笔钱如果用来一次性支付5年的计算资源这种做法并不明智。企业应把未来的钱花在今天的经营、业务增长上。”陈健这样分析。
“以并行科技为例,我们是一家提供超算的服务商,要满足大模型训练,在GPU或计算卡上的投入就是几个亿。我们测算了一下,购买1000张H800按市场价,就要投入3亿资金。如此大额的投资我们也不能贸然投入。而是采用算力网络模式,和三大运营商合作,由运营商出钱购买算力,我们做总包运营,大家合作分成,来解决重资产这个难题。
“因此,买不如租,大部分企业会选择租用的模式。企业在算力规划上还是要根据自身的发展情况,通用大模型发展非常快,算力烧钱的速度也非常快,都是以亿元为计。企业如果在没有融到足够的资金,还是不要采用自建算力的模式。”
加速落地,超算更适合大模型训练
市面上可选的算力租用方式无非就三种:云计算模式,采用公有云的方式;裸金属模式,也就是传统的服务器托管,以物理机的形式交付;还有就是超算模式,就是用海量的GPU卡,通过业务调度的方式变成一个大的计算池,用户用的时候从中选择自己所需要的GPU卡,用完再释放掉这些卡资源以便别人调用。
“我们认为,采用GPU集群的超算模式更适合大模型的训练。”陈健解释道:“大模型的训练本质上就是一个超大的训练任务,比如在1000张(或更多)GPU卡上跑两、三个月,这就是一个典型的超算场景。”
“云计算或者说云主机模式就是一个GPU服务器分给很多用户共享,是海量的单台、单节点的共享,并且是单节点内部的GPU卡资源的共享。可想而知,这个共享级别不足以支撑大模型训练需要成百上千张卡跑一两个月这样的应用场景。”
“采用GPU集群的超算模式是大模型训练较具成本优势的方式。用户只需对自己真实使用的GPU算力进行付费。而不是租了一年,调试要三个月,这三个月的调试期也要付费。”所以无论从算力对大模型训练场景的支撑能力,还是实际租用带来的使用体验,尤其是成本消耗上,超算都可谓是大模型训练的上乘之选。
坚持“三不碰”(数据、应用、模型)原则 ,超算中立且安全 “提供超算的企业自己并不做模型,也就是不跟自己的客户进行竞争。”陈健认为这是对那些依靠训练大模型创业和提升企业竞争力的企业一种极大的保护。他表示:“像一些算力服务商,他们既提供算力又提供模型,也就会发生和自己的客户相竞争的局面。”
“并行科技在商业逻辑上严格限制自己的行为范围,我们只做算力或者通过算力网络整合算力,做好平台、做好与应用的适配、做好应用执行时的值守,确保应用的稳定、正常运行,让整个训练过程顺利完成。”
“此外,我们更重要的是要做好优化,让程序跑得快。例如,我们有个客户用500个GPU卡训练,通过计算优化,我们帮他提升了40% 的性能。”
“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。我们的优势主要体现在:一、确保用户有GPU卡可以用。二、通过技术服务让客户感到好用。三、通过算力优化降低用户用GPU卡的成本并提升效率。”
大模型爆发式增长,在需求强劲和相关产业政策催化的双轮驱动下,将迎来智能算力基础设施建设的大扩容时代。企业在看到市场前景的同时也要考虑到产业风险和经营效率,做好顶层规划与技术积累,才能在机遇到来时既不错过、也不踏空。