亚马逊云科技引领：大模子高效微调取强化进修-U乐国际·(中国)官方网站

亚马逊云科技引领：大模子高效微调取强化进修

作者：U乐国际·(中国)官方网站发布时间：2025-12-12 17:13

　　为领会析高效微调的奥妙，孙耀威细致分解了显存占用的次要构成部门：模子权沉、优化器形态和梯度值、以及激活形态。他提到，通过量化手艺，如GPDQ，从而大幅削减显存需求。操纵LoRA的低秩分化手艺，能够显著压缩优化器形态和梯度的显存占用。而正在激活形态方面，FlashAttention和activation recomputation等手艺通过算子融合和查抄点沉计较，无效降低了显存耗损。

　　正在近日的一次手艺分享会上，航空航天大学的博士生孙耀威深切切磋了若何操纵立异的手艺框架，正在亚马逊云平台上对大模子进行高效微调取强化进修锻炼。惹起了业界的普遍关心。

　　随后，孙耀威将话题转向了强化进修，出格是其正在ChatGPT等大模子中的使用。他注释了RLHF（人类反馈强化进修）的根基道理，即通过生成多条推理轨迹并利用励模子进行打分，来优化策略模子的参数。取PPO等保守强化进修算法比拟，RLHF无需额外的Critic模子来估量值函数，而是间接利用励分数的规范化值做为劣势函数信号。

　　孙耀威提到，EZI-ONE框架的利用同样便利，用户只需编写一个定制励函数的脚本，并将其径传入框架，即可完成RLHF锻炼过程。这种设想大幅降低了强化进修锻炼的门槛和难度。

　　孙耀威起首回首了大模子微调取强化进修的根基概念。他注释，微调凡是涉及将大型预锻炼模子（如GPT-3）针对特定使命数据进行调整，以提拔其正在该范畴的推理能力。然而，全量微调的成本昂扬，特别是对于参数规模复杂的模子而言。因而，旨正在降低显存占用并加快锻炼过程。

　　正在引见LFAIR框架时，孙耀威指出，该框架不只支撑文本推理模子，还兼容视觉言语模子和多模态模子，可以或许处置图像、视频、音频等多种模态数据。LFAIR集成了多种高效微调手艺，供给了一个无代码界面，使得用户只需简单选择模子、数据集和参数，即可完成模子微调并进行交互测试。

　　紧接着，这是一个专为加快GRPO（一种新的强化进修算法）锻炼而设想的高效框架。支撑从7B到72B分歧规模模子的锻炼。该框架采用单节制器多工做器的设想，将强化进修过程笼统为高级原语，使得算法开辟和改良愈加简练高效。

快捷导航

U乐国际·(中国)官方网站集团于2009年在江苏盐城成立，是一家专业致力于生产工业阀门和石油机械的高新技术企业。

点击下方按钮联系我们获取更多信息

联系我们