DeepSeek-R1 是由 DeepSeek AI 开发的大型语言模型,集成强化学习和链式思维能力,旨在通过 AWS 提供高效的 AI 解决方案。该模型在推理、数学和编码任务中表现出色,且成本比同类模型低 90-95%。它可以通过 Amazon Bedrock 和 SageMaker 等服务部署,适合构建生成式 AI 应用。
QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型,基于 Qwen 系列,专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出,性能可能与 DeepSeek R1 相当,甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术,能够自我检查答案并形成关键“思考习惯”,支持长上下文处理(最多 131,072 tokens)。QwQ-32B 对本地算力要求较低,仅需 4 张 NVIDIA 4090 GPU 即可运行,适合普通企业和开发者使用。
CoPE是一种新的位置编码方法,允许根据上下文来调整位置,以关注更高抽象级别的序列元素。它能够根据需要计算每个注意力机制头的距离,解决标准Transformer无法解决的计数和复制任务,并在语言建模和编码任务上拥有更好的困惑度(PPL)。
Self-Translate是一种技术,通过利用多语言语言模型的少样本翻译能力,能够有效地提高多语言语言模型的性能,克服对外部翻译系统的依赖,尤其在非英语输入场景下表现优越。
将SOTA多模态能力融入语言模型,改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
Data Gemma是一个开源模型库,旨在通过谷歌数据共享平台的海量真实世界统计数据,帮助解决语言模型的幻觉问题,实现语言模型的现实世界数据锚定。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型