Cooperative Self-Play (CSP) 是一种通过多代理环境中的互动训练AI代理理解其知识边界的方法。它利用群体层面的奖励机制,提升代理在工具使用和选择性预测方面的表现。CSP特别关注代理在复杂任务中的灵活性,如生物医学问答和通用知识问答,通过多代理协作优化工具使用和选择性预测,适合资源受限但需要高准确性的环境。