2025-06-02发表2025-06-02更新AI / LangChain2 分钟读完 (大约270个字)

LangChain：数据增强之文本切割器使用示例

大语言模型存在Token数量限制，不应超出该限制。因此，在分割文本成块时，需要计算好Token的数量。市面上存在多种tokenizer，计算文本token数量时，应使用与语言模型相匹配的tokenizer。

文件加载器加载各种类型的文档，读取文档内容为文本。所以文档切割根本是基于文本，再细分文本结构，文本语义。

基于长度切割

基于Token切割

tiktoken

tiktoken：是OpenAI创建的一个快速BPE标记器。tiktoken 用于估算Token，对于OpenAI模型来说，这可能更准确。
文本如何分割：按传入的字符。
如何测量块大小：通过tiktoken标记器。

基于字符切割

基于文本结构切割

递归文本切割

基于文档结构切割

Markdown切割

递归JSON切割

代码切割

HTML切割

基于语义的切割

基于语义文本切割

LangChain：数据增强之文本切割器使用示例

http://blog.gxitsky.com/2025/06/02/AI-LangChain-015-TextSplitter-Example/

作者

光星

发布于

2025-06-02

更新于

2025-06-02

许可协议

#Spilter 切割器

评论