VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库,集成了多种先进的视频生成模型,包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频,并支持多种视频生成工具,如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性,适用于多种视频生成任务。
MindSpore是华为开源的全栈AI框架,支持端边云协同训练,能够高效地进行AI开发和部署。它适用于移动、边缘和云场景,具备高性能和高效率的特点,并集成了华为生态系统以增强能力。
VL-PET是通过粒度控制实现视觉与语言模型的参数高效调优,旨在提升模型在特定任务上的表现。
LLM-zero2hero是一个高度解耦的微调项目,旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力,使用户能够灵活地调整模型以满足特定需求。
NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
2000 Fine Tuning Prompts是一个全面的资源,旨在帮助爱好者学习和实验微调,熟悉其在不同上下文中的功能和应用。
PaLI-3是一个相对更小、更快且更强大的视觉语言模型,其性能表现优于大小为其10倍的类似模型,专注于多模态任务的高效处理。
EdgeVLA是一个开源的边缘视觉-语言-行动模型,旨在增强机器人对视觉信息的理解和执行指令的能力。该项目专为边缘计算环境设计,支持社区贡献和改进。
AGVM是一个用于密集视觉预测的大批量优化项目,旨在提高深度学习模型在视觉任务中的训练和优化效率。
OpenVLA是一个开源的视觉-语言-动作模型,旨在通过高效微调的方式支持多机器人控制,结合了先进的语言和视觉编码技术,能够在多种任务中表现出色,适用于广泛的机器人应用场景。
Kiln 是一个全自动的微调框架,允许用户在一小时内使用 DeepSeek-R1 蒸馏出属于自己的小模型。整个过程无需编写代码或手动调节,仅需定义数据集即可。Kiln 提供可视化操作界面,支持主流模型如 DeepSeek、Claude、Llama 等,并允许训练自定义推理模型。它兼容 Windows、macOS 和 Linux 系统,开箱即用,适用于专业领域模型构建(如医学、法律等)。
是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。