MoC是一个用于检索增强生成(RAG)系统的文本分块框架,通过动态选择分块器、正则表达式引导的分块和编辑距离恢复算法,提升RAG系统的性能和效率。它还引入了新的评估指标:边界清晰度和分块粘性,以量化文本分块质量。MoC的实现依托于Meta-Chunking项目,并提供了lmchunker Python包,便于用户安装和使用。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型