阶跃星辰开源大模型技术：Open Reasoner Zero引领AI新潮流

0 0

Open Reasoner Zero的发布与突破

阶跃星辰与清华大学联合发布了Open Reasoner Zero (ORZ)模型，这一开源项目在AI领域引起了广泛关注。ORZ模型在响应长度上仅需约17%的训练步骤即可赶上DeepSeek-R1-Zero 671B，这一突破性进展标志着AI模型训练效率的显著提升。值得注意的是，团队在训练步骤约680步时，模型的训练奖励值、反思能力和回答长度同时出现显著提升，疑似出现了DeepSeek-R1-Zero论文中类似的“顿悟时刻”。

阶跃星辰开源大模型技术：Open Reasoner Zero引领AI新潮流

RL训练方法的创新

DeepSeek开源了推理模型的RL训练方法，仅需1/30的训练步骤即可达到与DeepSeek-R1-Zero相同尺寸的蒸馏Qwen模型的性能。这一创新方法证明了复杂的奖励函数并非必要，通过极简主义的GAE原版PPO和基于规则的奖励函数，即可在推理任务上同时扩大响应长度和基准性能。这一发现为进一步扩大强化学习规模提供了新的希望。

阶跃星辰开源大模型技术：Open Reasoner Zero引领AI新潮流

开源社区的贡献与影响

阶跃星辰的开源行动不仅推动了AI技术的发展，也为全球开源社区贡献了重要力量。香港科技大学校董会主席沈向洋表示，伴随着DeepSeek等中国大模型的开源，中国已经从原来的获益者变成今天在开源社区的贡献者。阶跃星辰创始人兼CEO姜大昕透露，在开源的过程中，企业收到很多海内外开发者的反馈，希望企业能开源更多模型，阶跃星辰决定继续开源，将在3月开源“图生视频”模型。

未来展望

阶跃星辰的开源大模型技术不仅提升了AI模型的训练效率，也为全球AI产业的发展带来了新的机遇。随着更多开源项目的推出，阶跃星辰有望在AI领域继续引领潮流，推动技术的创新与应用的深化。沈向洋认为，开源和闭源并不是完全对立的，可以通过合理的商业模式实现两者的平衡，未来需要找到一个平衡点，使得开源和闭源能够更好地共存和发展。

通过Open Reasoner Zero的开源，阶跃星辰不仅展示了其在AI技术上的领先地位，也为全球开发者提供了更多创新的可能性。未来，阶跃星辰将继续在开源社区中发挥重要作用，推动AI技术的普及与应用。