icml16-dml 是一个专注于音乐音频深度流形学习的项目,通过深度学习方法进行音乐音频的流形学习,支持音乐音频特征提取与表示学习,提供高效的音频数据处理和模型训练工具,适用于音乐信息检索和音频分析任务。
Open-R1是一个开源项目,旨在完整复现DeepSeek-R1的技术框架,并推动社区协作进一步完善。该项目提供了全面的模型训练、评估和数据生成工具,支持多种硬件加速,旨在帮助研究人员和开发者轻松复现和扩展R1模型。
HunyuanVideo是一个大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境,以促进视频生成技术的发展和应用。
文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
Open-Sora-Plan 是由北京大学YuanGroup团队与北大-兔展AIGC联合实验室共同发起的项目,旨在复现OpenAI的Sora模型。该项目结合了视频VQ-VAE、Denoising Diffusion Transformer等技术,支持可变长宽比、分辨率和持续时间的视频生成。项目还提供了高质量的数据清洗策略、提示精炼器等功能,以增强对联合时空特征的捕获,并应用于创意短片生成、学术研究等领域。
SF-V(单步前向视频生成模型)能够一步生成高质量视频,显著降低计算成本,并且提升生成速度,为实时视频生成奠定基础。
一种在视频生成中进行运动定制的新颖方法,解决了在视频生成模型中彻底探索运动表示方面存在的广泛差距。
一份颇为全面的生成式 AI 相关资源列表,涵盖文本生成、代码生成、智能体、图像生成、视频生成及音频生成等相关 AI 工具。
Self-Consistency是Google提出的一种方法,通过对单一模型进行多次采样和结果融合,显著提升大规模语言模型的推理能力和输出结果的可信度。该方法特别适用于大模型,能够生成高质量的训练数据,从而优化模型的训练过程。
Moonvalley通过先进的AI技术,简化视频生成的复杂性,为媒体制作、数字营销和创意产业的专业人士提供了一个强大的生成视频工具。
SynCLR是一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。它能够与OpenAI的CLIP在ImageNet上的传输效果一样好,利用合成数据获取高质量表征,适用于大模型训练中的偏好标记。