# Tokenization 分词

**分词**：将输入文本分成一个个**词元**，保证**各个词元拥有相对完整和独立的语义**，以供后续任务（如：学习 embedding、作为高级模型的输入）使用。【**分词器**：**在字符串和整数序列之间进行映射**。】
