大模型监督小模型

AutoDidact 是一个强化学习微调项目，旨在通过大模型监督小模型学习，减少人工监督的需求，从而提高模型的问题回答准确率。项目支持函数调用和代理反馈循环，被训练模型会根据文档生成自己的问题，并使用搜索工具在语料库中寻找答案。此外，项目使用其他大模型作为评判标准来评估回答的正确性，并通过强化学习（RL）提高模型能力，从而节省大量人工监督时间。

大模型监督小模型强化学习微调搜索工具自动生成问题

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。