大模型微调 SFT#
大模型微调正从“全参训练”的粗放模式,快速演进为“高效、可控、任务自适应”的精细化工程体系。2024 年以来,以 LoRA 为代表的参数高效微调(PEFT)已成工业标配,而 QLoRA、DoRA、PiSSA 等新方法进一步突破显存与表达力瓶颈,使 70B 级模型可在消费级 GPU 上微调。数据层面,合成指令(如 Evol-Instruct、Self-Rewarding)与课程学习策略大幅提升样本质量与训练稳定性。训练策略上,多阶段渐进微调、损失函数定制、梯度裁剪优化等技巧显著提升收敛效率与泛化能力。更重要的是,微调不再孤立,它正与 RLHF、DPO、模型编辑等对齐技术深度融合,构建“训练-对齐-评估”闭环。微调,成为释放大模型垂直领域的核心钥匙。
详细内容#
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
备注#
系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
非常希望您参与到这个开源课程中,B 站给 ZOMI 留言哦!