基于PyTorch的GPT-2模型训练器,优化效率和代码简化,实现现代技术如旋转嵌入,以更少的token达到相同验证损失。该项目专注于提升模型训练的效率,使得用户能够在多种深度学习任务中更便捷地使用GPT-2架构。
eigenGPT是一个基于C++的高效实现,旨在提供简化的GPT2架构,易于理解和扩展,适合嵌入式系统和资源受限环境。
Asian Bart是一个专为亚洲语言设计的BART模型,支持英语、汉语、韩语、日语等多种语言,适用于文本生成、翻译和摘要等多种自然语言处理任务,并提供预训练模型以便于研究和应用。
该项目旨在使用Rust语言在CPU上运行大型语言模型的推理。它不仅实现了快速的推理速度,还能在低能耗的情况下提供高效的性能。适用于本地推理和Rust项目集成,适合研究新语言模型应用。
基于GPT-2模型的中文文本生成项目,旨在为中文自然语言处理提供强大的文本生成能力,支持预训练和fine-tuning,适用于多种场景,如创作、对话等。
InternLM 是一个高效的语言模型开源平台,旨在为开发者提供构建高性能模型的便捷工具,支持从研究到应用的完整生命周期。最新版本书生·浦语2.0(InternLM2)经过2.6万亿token高质量语料训练,包含7B及20B两种参数规格,支持超长上下文和优秀的数学推理能力。
MLX Data是一个高效的跨框架数据加载库,旨在与PyTorch、Jax或MLX一起使用,既高效又灵活。它每秒可以加载和处理数千张图像,并能对生成的批次运行任意Python转换,适用于各种深度学习任务。
Transformers和相关的深度网络架构在此进行了总结和实现,涵盖了自然语言处理和计算机视觉等多个领域。