LangChain:数据增强之文本切割器使用示例
大语言模型存在Token数量限制,不应超出该限制。因此,在分割文本成块时,需要计算好Token的数量。市面上存在多种tokenizer,计算文本token数量时,应使用与语言模型相匹配的tokenizer。
文件加载器加载各种类型的文档,读取文档内容为文本。所以文档切割根本是基于文本,再细分文本结构,文本语义。
基于长度切割
基于Token切割
tiktoken
tiktoken:是OpenAI创建的一个快速BPE标记器。tiktoken 用于估算Token,对于OpenAI模型来说,这可能更准确。
文本如何分割:按传入的字符。
如何测量块大小:通过tiktoken标记器。
基于字符切割
基于文本结构切割
递归文本切割
基于文档结构切割
Markdown切割
递归JSON切割
代码切割
HTML切割
基于语义的切割
基于语义文本切割
LangChain:数据增强之文本切割器使用示例
http://blog.gxitsky.com/2025/06/02/AI-LangChain-015-TextSplitter-Example/