该项目能够自回归地完成复杂的标记序列,包括从随机过程中生成的任意序列到更丰富的空间模式。使用语言大模型驱动的策略可能会为词汇模式转化为动作提供新思路,但目前由于延迟、上下文限制和计算成本等问题,还难以在真实系统中部署。这些可以促进领域的发展,为更广泛的任务和应用提供基础和启示。
该研究定义了一种风格的语言模型代理,该代理具有推理和运用外部知识的能力,通过对先前轨迹的迭代训练来提升其性能。
将SOTA多模态能力融入语言模型,改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。
Residual Prompt Tuning是一种通过残差重参数化方法来改善提示调优性能的技术,旨在提高自然语言处理任务中的效果,优化预训练语言模型的表现。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型