tinyzero是一个使用Python编写的项目,旨在轻松训练类似AlphaZero的智能体,适用于任意环境,并提供了训练和评估智能体的功能。
RLx2是清华大学团队提出的一种强化学习专用的稀疏训练框架,能够完全基于稀疏网络训练深度强化学习模型。
BitNet是微软发布的1-bit LLM变体研究,支持在CPU上快速无损地推理1.58位模型。该项目通过将每个参数表示为三进制数 {-1, 0, 1},显著改善了时延、内存利用、吞吐量和能耗,能够在苹果M2等CPU上运行,适用于1.58位模型的无损推理。
LLM-Tuning 是一个专注于简化大语言模型(LLM)微调过程的工具,支持多种模型与数据集,旨在帮助用户轻松实现模型训练与评估。
多智能体自动生成框架,基于LLM的自动智能体生成的实验性开源应用,由LLM驱动,自主生成多智能体以实现设定的目标。
PushT环境:基于gymnasium的仿真环境,用于训练智能体将特定形状的块推至目标区域,支持多种观察空间和连续动作空间