Skip to main content

Command Palette

Search for a command to run...

Supervised Fine-Tuning 监督微调

Published
1 min read
Supervised Fine-Tuning 监督微调

SFT 简介

[!IMPORTANT] 🐲 监督微调 SFT 监督微调Supervised Fine-TuningSFT):在已经完成预训练的大语言模型基础上利用特定任务的标注数据集对模型参数进行进一步调整的技术过程。其核心逻辑在于:预训练模型已通过海量通用语料掌握了广泛的语言知识和模式,而 SFT 阶段则利用相对少量的高质量特定任务数据(通常为指令-回答对),引导模型将泛化能力收敛至具体应用场景从而显著提升模型在该任务上的表现

在实际执行中,SFT 的数据集通常由若干条样本构成,每条样本包含明确的指令(Instruction) 和对应的标准回答(Answer) ,其数学形式表示为:

$$> D={(I_{K},A_{K})}_{K=1}^{N} >$$

此外,在 SFT 阶段模型规模的选择尤为关键参数量较小的模型在处理有限数据量或计算资源受限的场景下效率更高、表现稳健;而参****数量巨大的模型(如 GPT-4 级别)则更擅长捕捉复杂模式在数据丰富、任务逻辑艰深的环境中表现更为出色

image

More from this blog

Architecture 大模型整体架构

分词粒度 词粒度 word:英文天生使用空格分隔词汇,中文可使用 jieba 分词工具。 优点:词的边界和含义得到保留。 缺点: 由于长尾效应,词粒度的词表可能会非常大,包含很多的稀有词,存储和训练成本高,稀有词往往很难学习好。 OOV(out of vocabulary)问题:对词表之外的词无能为力。 无法处理单词的形态关系和词缀关系。同一个词的不同形态,语义相近,完全当做不同的单词

Apr 30, 20261 min read
Architecture 大模型整体架构

LLM Pre-training 预训练

基本概念 预训练:在大规模的通用数据集上对模型进行初步训练,在见到特定任务数据之前,使模型能够捕捉到数据的通用特征和模式,提升其在各种任务上的性能和泛化能力,同时减少对标注数据的依赖,生成一个具备基础能力的基座模型(base model) ,并加速模型在新任务上的训练和微调(fine-tuning)过程。在预训练期间,模型需要处理大量未标记的文本数据,例如书籍、文章和网站,目标是捕获文本语料库中存

Apr 30, 20261 min read
LLM Pre-training 预训练

Reinforcement Learning 强化学习

1. RL 简介 在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequential decision making)任务。决策和预测任务不同,决策往往会带来“**后果 ” ,因此决策者需要为未来负责,在未来的时间点做出进一步的决策。实现序贯决策的机器学习方法就是强化学习(reinforcement learning)** 。预测仅仅产生一个针对输入数据的信号,并期望它和未来可观测

Apr 30, 20261 min read
Reinforcement Learning 强化学习

明天不熬夜

6 posts