Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

TURN 是一种用于优化大型语言模型(LLMs)温度参数的方法,旨在提高数学问题求解和代码生成等任务的性能。它通过分析生成文本的熵拐点来自适应地选择最佳温度,无需特定验证数据,高效且有效。TURN 在多样本推理场景中表现出色,特别是在数学问题(如 MATH 数据集)和代码生成任务(如 MBPP 数据集)上。
TURN的特点:
- 1. 基于熵的优化:通过熵拐点确定最佳温度,与网格搜索结果高度一致。
- 2. 无需任务特定验证数据:适用于各种任务和数据集,无需标注验证数据。
- 3. 样本效率高:仅需 40 个样本,性能下降仅为 0.2%。
- 4. 与最佳温度高度相关:在训练任务相似性和最佳温度之间存在强负相关。
- 5. 在特定任务上测试:在 MATH 和 MBPP 数据集上评估,使用多种模型如 Mistral-7B 和 Llemma-7B。
TURN的功能:
- 1. 克隆 GitHub 仓库并安装依赖。
- 2. 使用 JSONL 格式的数据,运行预测脚本。
- 3. 适用于数学问题求解和代码生成任务。
- 4. 可用于多样本推理场景,如多数投票和最佳 N 采样。
相关导航

思绪四散:关于o1类LLMs的欠思考现象论文 – 揭示LLMs推理缺陷并提出改进策略
该项目研究揭示了o1类大型语言模型(LLMs)在复杂推理任务中存在的‘欠思考’现象,即模型倾向于频繁切换不同推理思路而未能深入探索有前景的路径。研究通过三个挑战性测试集(MATH500、GPQA Diamond和AIME)和两个代表性开源o1类模型(QwQ-32B-Preview和DeepSeek-R1-671B)的实验,系统分析了这一问题。研究发现错误回答比正确回答使用更多令牌且思路切换频率更高,超过70%的错误回答包含至少一个正确思路。为量化欠思考,研究引入了ξ_UT指标,并提出‘思路切换惩罚(TIP)’解码策略,通过阻止过早的思路转换来提升模型在挑战性数据集上的准确率。实验结果显示TIP策略显著提高了模型性能,且无需微调模型。
暂无评论...