LOMO是复旦大学提出的新论文,旨在使用单台8片24G的RTX 3090对Llama 65B模型进行全参数微调。该项目通过优化训练效率和性能,为用户提供了兼容多种深度学习框架的解决方案,并附带详细的实验结果和分析,帮助用户更好地理解模型的表现。
Multipack Sampler是一种专门为大型语言模型设计的分布式采样器,旨在实现快速的无填充训练,提升训练效率同时优化资源使用。
Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库,集成了多项关键创新,包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果,支持多种模型架构,优化微调过程,并提供系统性能的显著提升。
PySpur是一个可视化大型语言模型推理路径的图形界面,旨在帮助开发者构建、测试和部署复杂的计算图,从而增强模型的思考能力。
LLM Hosting Container 是一个用于部署和托管大型语言模型的解决方案,具备与AWS服务的无缝集成,提供易于使用的API接口,并支持自动扩展和负载均衡,优化性能以满足高并发需求。
该项目汇集了针对大型语言模型的训练数据管理的研究,包括与预训练、数据质量和领域构成相关的资源。
高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 'GPT slop')的生成概率
openai-forward是一个专为大型语言模型设计的高效转发服务,支持OpenAI API的反向代理功能,旨在提升请求处理效率,简化集成过程。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
Nebulgym是一款深度网络训练加速框架,用户只需增加几行代码即可显著提升AI模型的训练速度,且无需对现有训练设置进行修改。它支持多种深度学习框架,便于用户快速集成和使用。