Music LLM 是一个基于 PyTorch 的音乐生成和文本转语音(TTS)整合系统,使用以 LLaMA 为基础的大型语言模型(LLM)。其音乐生成部分可在单张 RTX 4090 GPU 上高效训练,耗时不到 10 小时,适合资源有限的研究环境。项目可能整合了现有开源项目如 ChatMusician(音乐生成)和 Llasa-8B(TTS),但具体整合方式尚不明确。
colmap_cameras_pytorch 是一个用 PyTorch 实现的工具,专注于 COLMAP 相机模型。它支持自动微分,全面支持 COLMAP 的所有相机模型,并提供实用工具如相机模型重映射和根求解器。这款工具主要面向计算机视觉和深度学习领域的研发人员,特别适用于结构从运动(SfM)和多视图立体视觉(MVS)任务。
DCA (DeepCrossattention) 是一种用于增强Transformer网络中残差连接的新机制。它通过可学习的权重和深度交叉注意力动态地结合不同层的信息,从而提高语言模型的性能、训练效率和稳定性。DCA采用Pytorch实现,可通过pip安装,并提供如DCAGPT等类用于构建和训练Transformer模型,专注于语言建模任务。
EvTexture是一种基于事件相机的高频动态细节来提升视频纹理质量的新方法。通过多次迭代优化细节信息,确保在时间轴上每一帧的细节都能保持一致。该项目提供了Pytorch实现,并已在ICML 2024上发表。项目支持多种数据集,并提供了预训练模型和测试集,方便用户快速测试和使用。
vitsGPT是一个基于大规模语言模型的语义意识增强文本到语音合成工具,提供PyTorch实现。它支持多种语义评估指标和数据集,旨在提升文本到语音合成的语义准确性和自然度。
pytorch-openpose是一个基于PyTorch的OpenPose实现,支持手部和身体的姿态估计。该项目提供了实时姿态估计功能,适用于视频中的人体姿态分析、手势识别等应用。由于其基于PyTorch,具有灵活性和高性能,并且是开源项目,社区驱动开发。
该项目提供了多种生成模型的PyTorch实现,包括VAE、BIRVAE、NSGAN、MMGAN、WGAN、WGANGP、LSGAN、DRAGAN、BEGAN、RaGAN、InfoGAN、fGAN和FisherGAN等。代码带有详细注释,易于理解,并包含交互式可视化工具,帮助用户更好地理解和解释不同生成模型的行为。
nano-simsiam是一个极简的PyTorch实现的SimSiam自监督学习框架,仅用400行代码实现,基于ResNet50在ImageNet上达到良好性能。它支持分布式训练、实时KNN评估和自动混合精度训练,非常适合研究原型开发,代码简洁易于理解和修改。
smolGPT是一个从零开始训练迷你大语言模型的工具,采用纯PyTorch实现,代码简洁无冗余,支持高效训练、混合精度和梯度累积。预训练模型仅需18.5小时,适合快速上手。项目专为教育目的设计,帮助用户理解大语言模型的训练过程,并适用于小规模文本生成任务。此外,smolGPT还支持flash attention和现代采样技术,可用于研究和实验,快速验证模型效果。
该项目全面解析了深度学习的发展史,从简单的前馈网络到最新的GPT-4o,涵盖了所有关键创新。项目不仅包含关键论文和笔记,还提供了重要的数学解释和直觉理解。此外,项目还提供了相关的PyTorch玩具实现,帮助用户更好地理解和实践深度学习技术。
高效稀疏注意力机制(NSA)的PyTorch实现,让模型训练更省时省力!该项目通过硬件对齐设计和原生可训练的特性,支持多种稀疏模式,灵活适配不同的深度学习任务,显著提高训练效率,减少资源消耗。
一本从机器学习的基础知识开始,一步步地建立您对语言模型的理解的书。官网上可以在线阅读但不能下载。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
基于PyTorch从零实现的Flow Matching生成模型框架,支持MNIST数据集的有条件和无条件生成。包含MiniUnet模型结构,支持classifier-free guidance,可在CPU上运行。提供了完整的训练推理代码和详细注释,适合学习和理解Flow Matching算法原理
该项目深入介绍了Transformer模型的背景、关键组件及其实现细节,旨在帮助开发者理解并实现Transformer架构。
该项目是一个基于PyTorch实现的Spatial Transformer Network (STN),采用Thin Plate Spline (TPS)技术进行空间变换,能够灵活地对输入图像进行几何变换,支持高效的训练与推理。
一个完整的大语言模型(LLM)可解释性研究项目,使用稀疏自编码器(SAE)分析Llama 3.2模型,由纯PyTorch实现且可完全复现。包含从数据采集、SAE训练、特征分析到验证的全套流程,可帮助理解模型内部行为和概念表示
ChineseNMT是一个基于Transformer架构的高效英译中翻译模型,使用PyTorch实现,支持自定义数据集训练,提供预训练模型,并且易于扩展和修改。
Nano是一个自制的168M大语言模型,具备完整的模型结构和多种推理方式,适用于多种场景的AI应用。
一个教育性的稀疏注意力机制实现库,专注于LLM推理的优化,提供多种注意力模式及其详细教程,旨在帮助用户理解和应用稀疏注意力技术。
最小 PyTorch 实现的 GPT-2 和 Llama,旨在简化代码以便更容易理解和使用,并且能够在短时间内训练出性能良好的自然语言生成系统。
Segment Anything Fast 是一个面向批量离线推断的高效图像分割工具,基于PyTorch实现,旨在提供快速、便捷的图像分割解决方案,适合在本地环境中使用。
minGPT是用PyTorch重新实现的GPT,旨在变得小巧、干净、可解释和具有教育意义,适合学习和研究。
Movenet.Pytorch是Google推出的MoveNet在Pytorch中的实现,包含训练代码和预训练模型,适用于人体关键点检测任务。
最全面的深度强化学习算法PyTorch实现合集,整合了13种主流强化学习算法,适合各级别研究者和开发者。每个算法都配有详细文档、完整训练曲线和论文引用,提供丰富的学习资源推荐,包括环境配置、经典书籍、在线课程和重要论文,确保用户能够顺利进行深度强化学习的实验和研究。