封面往事记者 欧阳宏宇
在算力紧缺的提效行动布景下 ,若何提升大模子磨炼以及推理的大模大模大幅功能,并飞腾老本,国产功成为业界关注的磨炼焦点 。
11月23日,提升腾讯吐露其混元大模子眼前的提效行动自研机械学习框架Angel再次降级。降级后,大模大模大幅该学习框架可反对于单使命万卡级别超大规模磨炼 ,国产功大模子磨炼功能提升至主流开源框架的磨炼2.6倍 ,千亿级大模子磨炼可节约50%算力老本。提升
大模子时期下 ,提效行动模子参数呈指数级削减 ,大模大模大幅抵达万亿级别 ,国产功大模子逐渐从反对于繁多模态以及使命睁开为需要反对于多种模态下的磨炼多种使命 。该趋向下,提升大模子磨炼所需算力重大 ,远超单个芯片的处置速率 ,而多卡扩散式磨炼通讯斲丧重大。若何后退硬件资源运用率,成为影响国产大模子技术睁开以及适用性的紧张条件 。
模子磨炼功能将抉择其进化速率,也是BAT等厂商比拼的中间。就在不久前举行的第二十届中国合计机大会上 ,baidu首席技术官王海峰就地下泄露,从往年3月宣告至今,文心大模子4.0磨炼算法功能已经提升3.6倍;经由飞桨与文心的协同优化,周均磨炼有功能逾越98%,推理功能提升50倍 。
阿里云通义大模子则聚焦于规模定理 ,基于小模子数据扩散 、纪律以及配比,钻研大规模参数规模下若何提升模子能耐 ,并经由对于底层灵骏集群的优化,将模子磨炼功能提升了30% ,磨炼晃动性提升了15%。
要提升大模子磨炼功能 ,主要在于对于芯片 、框架、模子 、运用四层的优化 ,以及baidu 、阿里的逻辑差距,腾讯云对于混元大模子的优化会集在机械学习磨炼框架的调优,对于预磨炼 、模子精调以及强化学习等全流程妨碍减速以及优化 。
据介绍,基于HCC高功能合计集群 ,AngelPTM接管混合精度磨炼技术 ,并优化了存储机制,可兼容适配多款国产化硬件,可能以更少的资源以及更快的速率磨炼更大的模子。同时,自研大模子推理框架AngelHCF经由扩展并行能耐 ,实现为了更快的推理功能以及更低老本,相较于业界主流框架,其推理速率后退了1.3倍 。在腾讯混元大模子文生图的运用中 ,推理耗时从10秒延迟至3至4秒