translate English

机械知识

亚马逊云科技引领:大模子高效微调取强化进修

作者:U乐国际·(中国)官方网站 发布时间:2025-12-12 17:13

  为领会析高效微调的奥妙,孙耀威细致分解了显存占用的次要构成部门:模子权沉、优化器形态和梯度值、以及激活形态。他提到,通过量化手艺,如GPDQ,从而大幅削减显存需求。操纵LoRA的低秩分化手艺,能够显著压缩优化器形态和梯度的显存占用。而正在激活形态方面,FlashAttention和activation recomputation等手艺通过算子融合和查抄点沉计较,无效降低了显存耗损。

  正在近日的一次手艺分享会上,航空航天大学的博士生孙耀威深切切磋了若何操纵立异的手艺框架,正在亚马逊云平台上对大模子进行高效微调取强化进修锻炼。惹起了业界的普遍关心。

  随后,孙耀威将话题转向了强化进修,出格是其正在ChatGPT等大模子中的使用。他注释了RLHF(人类反馈强化进修)的根基道理,即通过生成多条推理轨迹并利用励模子进行打分,来优化策略模子的参数。取PPO等保守强化进修算法比拟,RLHF无需额外的Critic模子来估量值函数,而是间接利用励分数的规范化值做为劣势函数信号。

  孙耀威提到,EZI-ONE框架的利用同样便利,用户只需编写一个定制励函数的脚本,并将其径传入框架,即可完成RLHF锻炼过程。这种设想大幅降低了强化进修锻炼的门槛和难度。

  孙耀威起首回首了大模子微调取强化进修的根基概念。他注释,微调凡是涉及将大型预锻炼模子(如GPT-3)针对特定使命数据进行调整,以提拔其正在该范畴的推理能力。然而,全量微调的成本昂扬,特别是对于参数规模复杂的模子而言。因而,旨正在降低显存占用并加快锻炼过程。

  正在引见LFAIR框架时,孙耀威指出,该框架不只支撑文本推理模子,还兼容视觉言语模子和多模态模子,可以或许处置图像、视频、音频等多种模态数据。LFAIR集成了多种高效微调手艺,供给了一个无代码界面,使得用户只需简单选择模子、数据集和参数,即可完成模子微调并进行交互测试。

  紧接着,这是一个专为加快GRPO(一种新的强化进修算法)锻炼而设想的高效框架。支撑从7B到72B分歧规模模子的锻炼。该框架采用单节制器多工做器的设想,将强化进修过程笼统为高级原语,使得算法开辟和改良愈加简练高效。



快捷导航

U乐国际·(中国)官方网站集团于2009年在江苏盐城成立,是一家专业致力于生产工业阀门和石油机械的高新技术企业。

点击下方按钮联系我们获取更多信息

联系我们