基于MLX框架的GPT-2模型实现,提供从零开始训练生成式预训练语言模型的教程,使用Python代码约200行,依赖mlx和numpy,适用于Macbook等设备,能在约10分钟内训练完成并生成类似莎士比亚文本的输出
Alpaca 是斯坦福大学基于 LLaMa-7B 训练的开源语言模型,其性能可与 173B 的 GPT-3.5 媲美。通过优化数据集,Alpaca 能够在微调 7B 和 13B 参数的语言模型时显著提高效果。
该项目汇集了多个开源的中文预训练语言模型及其对应的指令数据集,旨在为中文自然语言处理提供丰富的资源。
NeMo-Skills是一个专注于提升大型语言模型在数学问题解决能力的项目,同时支持多种任务的优化和改进,利用深度学习技术增强模型表现,且为开源项目,便于社区贡献和扩展。
BenchLLM是一个免费的开源工具,旨在简化对大型语言模型(LLMs)、聊天机器人和其他人工智能应用的测试过程。用户可以实时测试数百个提示和响应,自动化评估并基准测试模型,以构建更好和更安全的AI。
Python机器学习库
Hunyuan-Large是腾讯推出的大型MoE(Mixture of Experts)模型,拥有3890亿参数和520亿激活参数,是业界目前最大的开源Transformer基础MoE模型,专注于自然语言处理和长文本理解。
基于Rust的快速文本分词工具,支持RWKV v5和v6模型使用的World Tokenizer,提供Python模块安装与使用,通过性能和有效性测试,与原始分词器结果一致,速度显著提升
minbpe是一个用于字节级别的字节对编码(BPE)算法的教育性代码,旨在帮助用户理解BPE的工作原理。该项目不仅实现了BPE算法,还支持数据压缩和文本处理,具有可变长度编码以提高表示效率。