一种通过基于目标的预训练方法来提高强化学习中的样本效率。
AnySkill是一个用于交互代理的开放词汇物理技能学习项目,旨在提升交互代理在多种物理技能上的学习能力。该项目通过创新的方法使代理能够在未见过的技能上进行学习,进而实现更灵活的交互和应用。
一种特殊的神经网络架构,可以在不增加推理成本的情况下,为语言大模型(LLM)增加可学习的参数。该研究发现模型比密集模型更能从指令调优中获益,因此提出将MoE和指令调优结合起来。
Google 推出的 GameNGen,是第一款完全由神经网络模型驱动的游戏引擎,它能够以高质量方式在长轨迹上与复杂环境进行实时交互。
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
Stick-breaking Attention 是一种基于 Triton 的变长序列注意力机制实现,旨在通过优化计算方式提升在 GPU 上的性能,适合多种深度学习任务,易于与现有框架集成。