第2课推荐论文

第2课推荐阅读的 5 篇核心论文：SFT 超参数指南、Self-Instruct、MT-Bench、UltraChat、Deita

核心论文列表

以下 5 篇论文覆盖了第 2 课的核心知识点：SFT 超参数实践、指令数据构建方法、LLM 评估框架和数据高效选择策略。

Pareja 等（2024.12）——3B-7B 模型 SFT 的全面超参数指南。系统性地消融了学习率、批量大小、训练轮数、LoRA 配置等超参数，为小型 LLM 的 SFT 提供了可复现的最佳实践。

Wang 等（2023）——指令数据合成的开创性工作。提出使用种子任务引导 LLM 自动生成指令数据的方法，开启了指令数据自动化合成的先河。

Zheng 等（NeurIPS 2023）——LLM-as-Judge 评估框架的奠基论文。提出 MT-Bench（80 题 8 类别评估）和 Chatbot Arena（人类偏好排行榜），证明 GPT-4 评判与人类偏好高度一致。

Ding 等（2023）——高质量多轮对话数据集。通过双模型模拟真实多轮对话，生成 1.5M 条高质量对话数据，清洗后的 UltraChat-200K 是最常用的 SFT 数据集之一。

Liu 等（2024）——数据高效选择策略。提出基于复杂度和质量的双维度数据选择方法，仅用 6K 条精选数据即可达到与完整数据集相当的 SFT 效果。

阅读优先级：

MAGPIE: Alignment Data Synthesis from Scratch（Xu 等，ICLR 2025）——第 1 课推荐论文，最新的无种子数据合成方法
Tülu 3: Pushing Frontiers in Open Language Model Post-Training（Lambert 等，2024）——第 1 课推荐论文，数据混合策略的最佳实践
LIMA: Less Is More for Alignment（Zhou 等，2023）——数据质量 vs. 数量的经典论证
Alpaca: A Strong, Replicable Instruction-Following Model（Stanford，2023）——Self-Instruct 的实用化实现，开源 SFT 社区的里程碑