AI交流(进群备注:Hora)

Hora是一个在模拟器中训练强化学习策略,并将其直接部署到真实世界机械手的项目,完全不依赖视觉或触觉输入,旨在实现高效的机械手操作。
Hora的特点:
1. 在模拟器中使用手指转动各种物体
2. 将训练好的策略直接部署到真实机械手
3. 不依赖视觉或触觉输入进行操作
Hora的功能:
1. 在模拟器中进行训练
2. 将训练模型导出并部署到机械手
3. 测试和优化RL策略
相关导航

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs论文 – 语言模型自我提升的四种关键认知行为
该研究论文探讨了语言模型通过强化学习实现自我提升的四种关键认知行为:验证、回溯、子目标设定和向后链式推理。研究发现这些行为对模型在可验证任务上的自我提升至关重要。通过比较Qwen-2.5-3B和Llama-3.2-3B模型在Countdown游戏中的表现,发现Qwen自然表现出这些行为,而Llama需要示例引导才能提升。研究还表明,推理行为的出现比答案的正确性更重要,并通过数据过滤和继续预训练使Llama匹配Qwen的表现。
暂无评论...