2025-06-02发表2025-12-11更新AI / LangChain33 分钟读完 (大约4972个字)

LangChain：文本切割器如何根据tokens拆分文本

大语言模型存在Token数量限制，不应超出该限制（如 GPT-4 Turbo 支持 128K Token）。超出限制会导致截断或报错。

2025-06-02发表2025-06-03更新AI / LangChain2 分钟读完 (大约270个字)

LangChain：数据增强之文本切割器使用示例

大语言模型存在Token数量限制，不应超出该限制。因此，在分割文本成块时，需要计算好Token的数量。市面上存在多种tokenizer，计算文本token数量时，应使用与语言模型相匹配的tokenizer。