小样本学习

R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型，通过群组相对策略优化（GRPO）算法进行强化学习优化。在MMAU Test-mini基准测试中仅用38k样本即达到64.50%的平均准确率，显著优于传统监督式微调方法。该项目创新性地将GRPO应用于音频领域，展示了小样本场景下的高效性能，但研究也指出大型音频语言模型在听觉-语言推理方面仍落后于人类水平。

GRPO算法MMAU基准测试小样本学习强化学习优化

孟子 GPT 大语言模型官网 – 多模态大语言模型

孟子 GPT 大语言模型是由澜舟科技开发的一个大规模语言模型，支持多语言和多模态数据处理，广泛应用于文本理解和生成任务。该模型在国内评测中表现优异，如 C-EVAL 和 SUPERCLUE，并于 2023 年底通过网信办备案，已面向公众开放。其技术特点包括多模型架构支持、知识图谱增强、小样本学习能力以及图文双模态输入等。