AI交流(进群备注:Unlock-DeepSeek)

Unlock-DeepSeek项目旨在深入解读、扩展和复现DeepSeek系列工作,帮助AI研究爱好者从零开始掌握前沿的大语言模型(LLM)技术。项目提供全方位的学习路径,从初学者到从业者都能受益,涵盖MoE、推理模型等关键技术的深度拆解,并结合实际案例进行讲解。此外,项目还提供中文复现教程,降低学习门槛,使更多人能够轻松上手和实践。
Unlock-DeepSeek的特点:
- 1. 面向从初学者到从业者的广泛受众,提供全方位学习路径
- 2. 深度拆解MoE、推理模型等关键技术,结合实际案例
- 3. 提供中文复现教程,降低学习门槛
Unlock-DeepSeek的功能:
- 1. 帮助AI研究爱好者从0到1掌握前沿LLM技术
- 2. 通过深度拆解和实际案例学习MoE和推理模型
- 3. 使用中文复现教程进行学习和实践
相关导航

Humanity's Last Exam (HLE) 是一个多模态基准测试,旨在评估AI在人类知识前沿的极限表现。该项目包含2,700道高难度问题,涵盖数学、人文和自然科学等领域,由来自50个国家、500多个机构的近1,000名专家共同设计。这些问题经过多阶段审核,确保其精确、无歧义且难以通过互联网检索到答案。当前最先进的大型语言模型(LLMs)在该测试中的准确率低于10%,并表现出‘过度自信’现象。HLE为研究人员和开发者提供了一个严格的测试环境,帮助了解AI在复杂任务中的表现,并为政策制定提供参考。

该项目研究揭示了o1类大型语言模型(LLMs)在复杂推理任务中存在的‘欠思考’现象,即模型倾向于频繁切换不同推理思路而未能深入探索有前景的路径。研究通过三个挑战性测试集(MATH500、GPQA Diamond和AIME)和两个代表性开源o1类模型(QwQ-32B-Preview和DeepSeek-R1-671B)的实验,系统分析了这一问题。研究发现错误回答比正确回答使用更多令牌且思路切换频率更高,超过70%的错误回答包含至少一个正确思路。为量化欠思考,研究引入了ξ_UT指标,并提出‘思路切换惩罚(TIP)’解码策略,通过阻止过早的思路转换来提升模型在挑战性数据集上的准确率。实验结果显示TIP策略显著提高了模型性能,且无需微调模型。