LangChain:数据增强之文本切割器使用示例

大语言模型存在Token数量限制,不应超出该限制。因此,在分割文本成块时,需要计算好Token的数量。市面上存在多种tokenizer,计算文本token数量时,应使用与语言模型相匹配的tokenizer

文件加载器加载各种类型的文档,读取文档内容为文本。所以文档切割根本是基于文本,再细分文本结构,文本语义。

基于长度切割

基于Token切割

tiktoken

tiktoken:是OpenAI创建的一个快速BPE标记器。tiktoken 用于估算Token,对于OpenAI模型来说,这可能更准确。
文本如何分割:按传入的字符。
如何测量块大小:通过tiktoken标记器。

基于字符切割

基于文本结构切割

递归文本切割

基于文档结构切割

Markdown切割

递归JSON切割

代码切割

HTML切割

基于语义的切割

基于语义文本切割

LangChain:数据增强之文本切割器使用示例

http://blog.gxitsky.com/2025/06/02/AI-LangChain-015-TextSplitter-Example/

作者

光星

发布于

2025-06-02

更新于

2025-06-02

许可协议

评论