LLM Pre-training 预训练

基本概念

预训练：在大规模的通用数据集上对模型进行初步训练，在见到特定任务数据之前，使模型能够捕捉到数据的通用特征和模式，提升其在各种任务上的性能和泛化能力，同时减少对标注数据的依赖，生成一个具备基础能力的基座模型（base model） ，并加速模型在新任务上的训练和微调（fine-tuning）过程。在预训练期间，模型需要处理大量未标记的文本数据，例如书籍、文章和网站，目标是捕获文本语料库中存在的底层模式、结构和语义知识。

数据稀缺性：在现实世界的应用中，收集并标注大量数据往往是一项既耗时又昂贵的任务。特别是在某些专业领域，如医学图像识别或特定领域的文本分类，标记数据的获取更是困难重重。预训练技术使得模型能够从未标记的大规模数据中学习通用特征，从而****减少对标记数据的依赖，使得在有限的数据集上也能训练出性能良好的模型。
先验知识问题：在深度学习中，模型通常从随机初始化的参数开始学习。然而，对于许多任务来说，具备一些基本的先验知识或常识会更有帮助。预训练模型通过在大规模数据集上进行训练，学习到许多有用的先验知识，如语言的语法规则、视觉的底层特征等。这些先验知识为模型在新任务上的学习提供了有力的支撑。

LLM Pre-training 预训练

基本概念

Comments

More from this blog

BPE

Architecture 大模型整体架构

Tokenization 分词

Reinforcement Learning 强化学习

Command Palette

基本概念

Comments

More from this blog