AI交流(进群备注:Open Thoughts)

Open Thoughts 是一个全开放的数据整理项目,专注于为思维模型构建推理数据集。其主要目标是通过整理推理数据集,训练出在数学和编程推理基准上超越 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-7B 的小型推理模型。
Open Thoughts的特点:
- 1. 全开源的数据整理项目
- 2. 专注于为思维模型构建推理数据集
- 3. 旨在超越现有模型如 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-7B
- 4. 针对数学和编程推理基准
Open Thoughts的功能:
- 1. 训练用于数学任务的小型推理模型
- 2. 训练用于编程任务的小型推理模型
- 3. 与 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-7B 进行推理模型基准测试
- 4. 开源协作以改进推理数据集
相关导航

Humanity’s Last Exam (HLE)官网 – 评估AI极限的多模态基准测试
Humanity's Last Exam (HLE) 是一个多模态基准测试,旨在评估AI在人类知识前沿的极限表现。该项目包含2,700道高难度问题,涵盖数学、人文和自然科学等领域,由来自50个国家、500多个机构的近1,000名专家共同设计。这些问题经过多阶段审核,确保其精确、无歧义且难以通过互联网检索到答案。当前最先进的大型语言模型(LLMs)在该测试中的准确率低于10%,并表现出‘过度自信’现象。HLE为研究人员和开发者提供了一个严格的测试环境,帮助了解AI在复杂任务中的表现,并为政策制定提供参考。
暂无评论...