Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
Snake-SLAM是一个可扩展的可视化惯性SLAM系统,专为低功耗航空设备设计,能够有效融合视觉和惯性传感器数据,实现实时导航和定位。
ShortMake 是一个创新工具,能够将简单的想法转化为引人注目的病毒视频。它自动化视频制作过程,生成剧本和配音,选择视觉素材,添加字幕并进行编辑,所有这一切都针对 YouTube Shorts 和 TikTok 等平台,简化了视频制作,使每个人都能轻松上手。
Wondershare Virbo是一款利用AI技术简化视频编辑流程的工具,适合初学者和专业视频制作人,旨在节省时间和成本,提高制作效率。
PanoHead是一个AI开源项目,主要用于生成3D立体头像。项目的源码可以在sizhean.github.io/panohead找到。此外,还有一篇相关论文可以在O网页链接中找到。
Dual-Radar 是一个专为无人驾驶技术开发的高质量双雷达数据集,旨在为深度学习模型提供真实场景下的目标检测与跟踪数据。该数据集涵盖多种无人驾驶场景,包含丰富的目标检测与跟踪标签,能够有效支持无人驾驶系统的训练与验证。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
CLEVR数据集生成工具用于生成视觉推理任务的合成数据集,支持用户自定义场景参数,促进AI的视觉理解研究,且包含评估模型性能的工具。
SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目,通过整合视觉和语言模态,优化预训练任务的性能。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型