从零开始构建自己的大型语言模型,提供详细教程和代码实现,覆盖编码、预训练和微调过程,适用于对自然语言处理和人工智能领域感兴趣的开发者和研究者
这是一个强大的Stable Diffusion Web UI扩展,利用Dreambooth技术提升图像生成能力,允许用户使用个性化图像训练自定义模型,并提供易于使用的界面来管理训练参数。
本项目研究了大语言模型中的epoch次数设置问题,深入探讨训练epoch数量对模型性能的影响,以及在不同数据集上epoch数量的变化如何影响训练的充分性和效果。
BGE-M3-Model-Converter是一个专门用于手动转换BGE-M3模型的工具,能够有效保留训练变量,并且用户可以直接控制模型的输出,从而满足不同应用场景的需求。
stablediffusion api是一个强大的API,旨在让开发者专注于构建下一代AI产品,而无需担心GPU的维护。它提供了便捷的接口,支持用户生成和微调Dreambooth Stable Diffusion,极大地简化了图像生成的流程和技术门槛。
Othello-GPT的工作令人信服地证明了大型语言模型能够构建复杂的世界模型,理解世界的结构和规则,超越简单的模式识别。
本书旨在概述大型语言模型的基本概念并介绍相关技术,重点在于大型语言模型的基础方面,而不是全面覆盖所有前沿方法。
Punica 是一个工具,旨在将多个经过 LoRA 微调的语言模型整合在一起,简化管理和调用,提供灵活的模型组合和优化的性能响应。
该项目涵盖自然语言处理(NLP)的理论知识、应用场景及工程实践,包括初学者和专业人士所需的指导和案例。
一种通过哨兵令牌压缩自回归变换器上下文的方法,提高模型效率。
纽约大学的研究人员提出了一种通过隐扩散模型保留不同年龄身份特征的方法,并且只需要少样本训练,即可直观地用「文本提示」来控制模型输出。
该项目提供了一个系统的路线图,帮助学习者在2024年掌握生成人工智能的各个方面,包括Python编程、基本机器学习、自然语言处理、深度学习、高级NLP概念以及生成式AI的应用和部署方法,同时还介绍了向量数据库和存储的相关内容。
eigenGPT是一个基于C++的高效实现,旨在提供简化的GPT2架构,易于理解和扩展,适合嵌入式系统和资源受限环境。
一个关于大语言模型(LLM)幻觉的研究项目,旨在探讨LLM的幻觉现象及其解决方案。项目致力于分析LLM幻觉的根本原因,提供多种解决方案,并建立评估体系以检测幻觉,融合领域知识以提升模型的可靠性。
Optimum-NVIDIA将NVIDIA平台与Hugging Face结合,提供卓越的推理性能,通过简单的代码修改,使LLaMA 2模型达到每秒1,200个token的处理速度,比其他框架快28倍。