《对齐手册》主题是如何使用不同技术来微调语言模型,以使其更符合人类和AI的偏好。
哈佛大学出品的新论文,旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制,使得大型语言模型在处理特定数据集时表现更佳。
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
Unsloth Zoo是一个提供用于Unsloth的实用工具库,旨在支持免费微调和加速大型语言模型,帮助开发者更高效地使用和优化语言模型。
FastLLM是一个动态策略选择的深度学习模型训练代码库,集成了Deepspeed、Megatron、FlashAttention、CudaFusionKernel和编译器技术,旨在优化大规模语言模型的训练效率,提供更加灵活和高效的训练方案。
汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型
隐式非线性扩散模型的最大似然训练,旨在通过学习复杂数据分布来提升生成模型的性能。
WizardLM是一个基于Code Llama微调的模型,专注于代码生成和相关任务,支持多种编程语言的代码编写与理解,提供模型的测试地址和下载链接,经过简单测试表现良好。
该项目基于 QLoRA 技术对 Falcon-7B 大型语言模型进行微调,专注于心理健康领域的对话数据集,从而提升模型在特定领域的性能。该模型支持多种对话场景的处理,旨在为心理健康相关应用提供更优质的支持。
Lorax 是一个基于 JAX 实现的低秩适应(LoRA)工具,旨在帮助研究人员和开发者高效微调大型语言模型。它利用低秩矩阵的方式,减少了微调过程中需要调整的参数数量,提升了计算效率,同时保持了模型性能。Lorax 易于集成,适合快速实验与原型开发,特别是在处理大型预训练模型时表现出色。