大模型评测 | AI-magic

DeepSeek-R1：AI推理能力的新突破与行业影响

DeepSeek-R1通过强化学习技术复现了OpenAI o1的推理能力，并公开了技术细节，为AI行业带来新突破。同时，SuperGPQA评测体系填补了大模型评测的空白，揭示了推...

AI快讯

3个月前

LMSYS发布的大模型排行榜单中，Llama 3表现亮眼，而Claude 3 Opus的最新版本Claude 3.7 Sonnet也带来了革命性升级，特别是其新增的“思考模式”和推理能力，使...

AI快讯

4个月前

LMSYS发布的大模型排行榜单显示，Llama 3在总榜单中位列第五，英文单项与GPT-4并列第一。榜单基于模型一对一battle，由全网测评者自行命题并打分。Meta首席科...

AI快讯

4个月前