Open Reasoner Zero的发布与突破
阶跃星辰与清华大学联合发布了Open Reasoner Zero (ORZ)模型,这一开源项目在AI领域引起了广泛关注。ORZ模型在响应长度上仅需约17%的训练步骤即可赶上DeepSeek-R1-Zero 671B,这一突破性进展标志着AI模型训练效率的显著提升。值得注意的是,团队在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,疑似出现了DeepSeek-R1-Zero论文中类似的“顿悟时刻”。
RL训练方法的创新
DeepSeek开源了推理模型的RL训练方法,仅需1/30的训练步骤即可达到与DeepSeek-R1-Zero相同尺寸的蒸馏Qwen模型的性能。这一创新方法证明了复杂的奖励函数并非必要,通过极简主义的GAE原版PPO和基于规则的奖励函数,即可在推理任务上同时扩大响应长度和基准性能。这一发现为进一步扩大强化学习规模提供了新的希望。
开源社区的贡献与影响
阶跃星辰的开源行动不仅推动了AI技术的发展,也为全球开源社区贡献了重要力量。香港科技大学校董会主席沈向洋表示,伴随着DeepSeek等中国大模型的开源,中国已经从原来的获益者变成今天在开源社区的贡献者。阶跃星辰创始人兼CEO姜大昕透露,在开源的过程中,企业收到很多海内外开发者的反馈,希望企业能开源更多模型,阶跃星辰决定继续开源,将在3月开源“图生视频”模型。
未来展望
阶跃星辰的开源大模型技术不仅提升了AI模型的训练效率,也为全球AI产业的发展带来了新的机遇。随着更多开源项目的推出,阶跃星辰有望在AI领域继续引领潮流,推动技术的创新与应用的深化。沈向洋认为,开源和闭源并不是完全对立的,可以通过合理的商业模式实现两者的平衡,未来需要找到一个平衡点,使得开源和闭源能够更好地共存和发展。
通过Open Reasoner Zero的开源,阶跃星辰不仅展示了其在AI技术上的领先地位,也为全球开发者提供了更多创新的可能性。未来,阶跃星辰将继续在开源社区中发挥重要作用,推动AI技术的普及与应用。