XiYanSQL开源 – 自然语言转SQL的多生成器集成框架
XiYanSQL是一个创新框架,专注于通过多生成器集成策略提升大型语言模型从自然语言生成SQL查询的能力。它引入M-Schema半结构化模式表示方法增强数据库结构理解,结合上下文学习(ICL)和监督微调生成高质量候选查询,并通过优化器和选择模型修正错误并选择最佳查询。该框架在Spider、BIRD等基准测试中达到SOTA性能(如Spider上89.65%执行准确率),支持SQLite/PostgreSQL/MySQL等多种方言,提供3B-32B不同规模的预训练模型。