这个开源项目是一个用于微调的代码库,支持使用不同的模型和注意力机制进行微调,帮助用户更好地解决问题。
AI交流(进群备注:axolotl)
Champ 是一个基于3D参数指导的人体图像动画生成项目,旨在增强动画的可控性与一致性。它通过使用3D参数模型,准确捕捉复杂的人体几何形状和运动特征,能够在多个基准数据集上生成高质量的人体动画。
Speech Trident 是一个专注于收集和整理语音/音频领域的大语言模型(LLM)、表示学习和编解码模型的资源列表。该项目旨在为研究者和开发者提供一个全面的参考和指南,帮助他们快速找到相关的模型和工具,推动语音/音频领域的机器学习研究和应用。
一个多模态机器学习资源的集合,包含各种模型、工具和研究材料,旨在帮助研究人员和开发者获取相关知识和实现。
RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具,支持实时语音转文字和语音合成,能够通过网页实现跨网络服务调用,方便用户在不同场景中进行高效的语音交互。
NdLinear是一种创新的N维线性变换层,专门设计用于处理多维数据(如图像、体积医学扫描和多变量时间序列),而无需展平数据,从而保留其结构信息。它沿输入张量的每个维度独立操作,捕获标准线性层忽略的轴特定依赖关系。研究表明,NdLinear在参数效率方面表现出色,使用更少的参数即可实现与标准线性层相当或更优的性能。它可以作为神经网络架构中的替换组件,适用于各种网络类型,如卷积、循环和基于变换器的网络。
Systemizer是一个系统设计工具,允许用户模拟大规模分布式系统的数据流,提供可视化的系统架构和实时反馈,帮助用户优化设计。
HivisionIDPhotos是一个基于AI的轻量级证件照制作工具,能够智能抠图、生成不同尺寸和背景的标准证件照。项目支持本地部署、Docker环境和API服务,便于用户快速制作和处理证件照。此外,还提供自动换正装、美颜(未来功能)、多种排版方式等扩展功能,适合个人用户和需要大量生成证件照的企业用户。
基于Andrej Karpathy的GPT-2实现和训练,添加大量注释以帮助理解模型原理,计划逐步增加更多功能。
archinstall是一个用于简化Arch Linux和KDE桌面环境安装过程的工具,提供用户友好的界面和自动化功能,确保用户能够快速、顺利地完成系统安装。
AniPortrait是腾讯开源的一个项目,能够根据音频和静态人脸图像生成逼真的人脸动画,支持说话、唱歌等多种动态效果。该项目通过音频驱动,自动生成与口型一致的人脸动画,并且支持多种语言、面部重绘和头部姿势控制。AniPortrait的核心框架结合了深度学习模型,能够生成高质量的动画,并且支持通过视频进行人脸重绘。
Sycamore 是一个基于大型语言模型(LLM)的搜索与分析平台,专门用于处理非结构化数据,如文档、幻灯片、音频等。它通过先进的LLM技术,帮助用户高效地搜索、分析和提取非结构化数据中的信息,支持多种数据类型,并且是一个开源平台。
fairseq-image-captioning是一个基于Transformer架构的图像自动描述扩展,专为PyTorch/Fairseq框架设计。它支持高效的图像特征提取与文本生成,提供了预训练模型和训练脚本,同时支持用户使用自定义数据集进行训练。该项目可以轻松集成到现有的PyTorch/Fairseq项目中,用于生成图像描述、训练新模型以及进行模型的微调和优化。
FreeTumor是一个大规模合成和分割肿瘤的基线工具,旨在帮助医学研究者扩展肿瘤分割数据集。该工具支持多种肿瘤类型,包括肝、胰腺、肾肿瘤以及COVID-19,具有高效的数据处理能力,适用于医学研究人员和数据科学家。
《Ray Tracing Gems II: 下一代实时渲染,使用DXR、Vulkan和OptiX》的源代码,作者为Adam Marrs、Peter Shirley和Ingo Wald。
LongAnimateDiff是Lightricks发布的一个基于AnimateDiff模型(v2)的高级运动模块,旨在解决Animatediff一次只能生成16帧视频的限制。它支持生成最多64帧的视频,超越了Stability AI SVD设定的25帧行业标准。该项目提供了更高的帧数生成能力,适用于需要高质量帧生成的动画项目,并且可以与ComfyUI集成,优化视频生成流程。