明天不熬夜

明天不熬夜

Supervised Fine-Tuning 监督微调

UpdatedApril 30, 2026

•1 min read

Supervised Fine-Tuning 监督微调

SFT 简介

[!IMPORTANT] 🐲 监督微调 SFT 监督微调（Supervised Fine-Tuning，SFT）：在已经完成预训练的大语言模型基础上，利用特定任务的标注数据集对模型参数进行进一步调整的技术过程。其核心逻辑在于：预训练模型已通过海量通用语料掌握了广泛的语言知识和模式，而 SFT 阶段则利用相对少量的高质量特定任务数据（通常为指令-回答对），引导模型将泛化能力收敛至具体应用场景，从而显著提升模型在该任务上的表现。

在实际执行中，SFT 的数据集通常由若干条样本构成，每条样本包含明确的指令（Instruction） 和对应的标准回答（Answer） ，其数学形式表示为：

$$> D={(I_{K},A_{K})}_{K=1}^{N} >$$

此外，在 SFT 阶段模型规模的选择尤为关键：参数量较小的模型在处理有限数据量或计算资源受限的场景下效率更高、表现稳健；而参****数量巨大的模型（如 GPT-4 级别）则更擅长捕捉复杂模式，在数据丰富、任务逻辑艰深的环境中表现更为出色。

Comments

Join the discussion

No comments yet. Be the first to comment.

More from this blog

BPE

Byte Pair Encoding (BPE) 论文：Neural Machine Translation of Rare Words with Subword Units 核心思想：从一个基础小词表开始，通过不断合并最高频的连续 token 对来产生新的 token。具体做法：输入训练语料和期望词表大小 V。准备基础词表：比如英文中 26 个字母加上各种符号，并初始化 ID。

Apr 30, 20261 min read1

BPE

Architecture 大模型整体架构

分词粒度词粒度 word：英文天生使用空格分隔词汇，中文可使用 jieba 分词工具。优点：词的边界和含义得到保留。缺点：由于长尾效应，词粒度的词表可能会非常大，包含很多的稀有词，存储和训练成本高，稀有词往往很难学习好。 OOV（out of vocabulary）问题：对词表之外的词无能为力。无法处理单词的形态关系和词缀关系。同一个词的不同形态，语义相近，完全当做不同的单词

Apr 30, 20261 min read1

Architecture 大模型整体架构

Tokenization 分词

分词：将输入文本分成一个个词元，保证各个词元拥有相对完整和独立的语义，以供后续任务（如：学习 embedding、作为高级模型的输入）使用。【分词器：在字符串和整数序列之间进行映射。】

Apr 30, 20261 min read1

Tokenization 分词

LLM Pre-training 预训练

基本概念预训练：在大规模的通用数据集上对模型进行初步训练，在见到特定任务数据之前，使模型能够捕捉到数据的通用特征和模式，提升其在各种任务上的性能和泛化能力，同时减少对标注数据的依赖，生成一个具备基础能力的基座模型（base model），并加速模型在新任务上的训练和微调（fine-tuning）过程。在预训练期间，模型需要处理大量未标记的文本数据，例如书籍、文章和网站，目标是捕获文本语料库中存

Apr 30, 20261 min read4

LLM Pre-training 预训练

Reinforcement Learning 强化学习

1. RL 简介在机器学习领域，有一类重要的任务和人生选择很相似，即序贯决策（sequential decision making）任务。决策和预测任务不同，决策往往会带来“**后果 ” ，因此决策者需要为未来负责，在未来的时间点做出进一步的决策。实现序贯决策的机器学习方法就是强化学习（reinforcement learning）** 。预测仅仅产生一个针对输入数据的信号，并期望它和未来可观测

Apr 30, 20261 min read3

Reinforcement Learning 强化学习

明

明天不熬夜

6 posts