# LLM Pre-training 预训练

## 基本概念

**预训练**：在**大规模的通用数据集**上对模型进行初步训练，在见到特定任务数据之前，**使模型能够捕捉到数据的通用特征和模式**，提升其在各种任务上的性能和泛化能力，同时减少对标注数据的依赖，生成一个具备基础能力的**基座模型（base model）** ，并加速模型在新任务上的训练和微调（fine-tuning）过程。在预训练期间，模型需要处理大量未标记的文本数据，例如书籍、文章和网站，目标是捕获文本语料库中存在的底层模式、结构和语义知识。

*   **数据稀缺性**：在现实世界的应用中，收集并标注大量数据往往是一项既耗时又昂贵的任务。特别是在某些专业领域，如医学图像识别或特定领域的文本分类，标记数据的获取更是困难重重。**预训练技术使得模型能够从未标记的大规模数据中学习通用特征**，**从而\*\*\*\*减少对标记数据的依赖**，使得在有限的数据集上也能训练出性能良好的模型。
    
*   **先验知识问题**：在深度学习中，模型通常从随机初始化的参数开始学习。然而，对于许多任务来说，具备一些基本的先验知识或常识会更有帮助。**预训练模型通过在大规模数据集上进行训练**，**学习到许多有用的先验知识**，如语言的语法规则、视觉的底层特征等。**这些先验知识为模型在新任务上的学习提供了有力的支撑**。