Pippo开源项目 – 单图生成多视角高清人像视频

Pippo是Meta Reality Labs推出的图像到视频生成模型，能够从单张照片生成1K分辨率的多视角高清人像视频。该模型基于多视角扩散变换器，预训练了30亿张人像图像，并在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块，用于注入像素对齐的条件，以及注意力偏差技术，能在推理时生成比训练时多5倍以上的视角。Pippo还引入了重投影误差，用于评估多视角生成的3D一致性。

Pippo的特点:

1. 多视角生成
2. 高效内容生成
3. 高分辨率支持
4. 空间锚点与ControlMLP
5. 自动补全细节

Pippo的功能:

1. 从单张照片生成多视角高清人像视频
2. 用于虚拟现实和增强现实应用
3. 在影视制作中生成高质量的角色动画
4. 用于3D建模和动画制作
5. 在社交媒体上生成动态头像

相关导航

Move AI官网 – 简化动画角色运动捕捉

Move AI是一种创新的运动捕捉技术，通过将2D视频转化为3D运动数据，利用先进的AI、计算机视觉、生物力学和物理学，简化了动画角色的运动捕捉过程，适用于从独立创作者到大型工作室的广泛用户。

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

Polycam官网 – 先进的3D扫描应用

Polycam是一款利用LiDAR和摄影测量技术创建详细3D模型的应用，适用于iOS、Android设备及网页，旨在使高级3D扫描技术对专业人士和爱好者都变得易于获取。它拥有直观的界面和强大的功能，帮助用户捕捉和创建高质量的3D环境表现。

sense开源项目 – 增强应用程序的动作识别能力

面向动作识别的神经网络推理引擎，增强您的应用程序，使其能够通过任何RGB相机看到和与人类互动。

MultiPly开源项目 – 通过视频重建3D图像

MultiPly是一个通过野外单目视频重建多人3D图像的项目，能够处理人物之间的遮挡和相互作用，使用先进的神经表征技术进行场景建模，并结合自监督的3D分割及可提示的2D分割模块，提供高效的人体姿势和形状优化。

3D Periodic Table for Apple Vision Pro官网 – 通过3D探索化学元素的应用

这款应用利用Apple Vision Pro的沉浸式体验，让用户以全新的维度探索化学元素，深入了解化学的世界。用户可以在iPhone、iPad、Apple Watch、Apple TV或Apple Vision Pro上下载使用，通过增强现实和3D可视化技术，获取每个元素的详细信息，提升化学理解。

MVDD：多视角深度扩散模型-通过多视角深度模型生成高质量点云

MVDD利用多视角深度和扩散模型来表示复杂的三维形状，并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云，包含细致的细节，点数可达20,000个以上。

Wonder Dynamics官网

Wonder Studio是由Wonder Dynamics开发的一项革命性进展，特别是在将计算机生成（CG）角色集成到实景拍摄中的电影制作和动画领域。这款AI驱动的工具简化了曾经复杂且成本高昂的动画和合成过程，使其对电影制作者和内容创作者更加易于访问和高效。

LoG开源项目 – 高效渲染大规模3D场景

LoG是浙江大学3DV小组提出的一种新型3D场景高效渲染方法，旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。它采用类似细节层次（LOD）的思想，通过树状结构存储高斯原始体，实现场景的高效渲染，适用于游戏开发、电影制作、城市规划和虚拟旅游等领域。

Yoom Legion AI官网 – 创新的3D角色建模工具

Yoom Legion AI 是一款由 YOOM 开发的创新工具，利用先进的文本转3D模型 AI 技术生成多样、高质量且符合行业标准的3D角色，简化并加速角色创建过程，适用于游戏、教育和娱乐等行业。

Segment Anything-通用图像分割模型

在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试，并系统研究了在SA-1B上定义的交互分割任务和其他分割任务（如全景分割和部件分割）上多任务联合训练的相互促进作用。

Fix Quixel Bridge Addon开源项目 – 修复Quixel Bridge插件，提升用户体验

一个修复Quixel Bridge插件的Blender插件，解决了多项BUG并改进了贴图导入流程。该插件专注于优化Quixel资源在Blender中的使用，使得用户能够更加高效地进行3D建模和贴图处理。

Rodin官网 – 轻松创建和可视化3D模型

Rodin是一个网络应用，用户可以轻松创建和可视化3D模型，提供友好的界面，适合初学者和专业人士。用户可以探索虚拟环境、执行动画，并与他人分享创作，赋予用户在三维空间中实现创意的能力，拥有多种增强创造力和生产力的工具和功能。

SadTalker开源项目 – 基于深度学习的图像驱动语音合成模型

SadTalker是一款基于深度学习的图像驱动语音合成模型，能够让静态人物照片同步嘴型、头部动作，并生成与语音匹配的动态视频。通过3D人脸重建和运动预测技术，使人物表情更自然，嘴型对齐更加精准。无需复杂的动捕设备，仅需一张图片和一段语音即可生成高度逼真的动态视频。广泛应用于虚拟主播、动画制作、AI教育等领域，为AI内容创作带来更多可能性。

LongAnimateDiff开源项目 – 突破Animatediff帧数限制

LongAnimateDiff是Lightricks发布的一个基于AnimateDiff模型（v2）的高级运动模块，旨在解决Animatediff一次只能生成16帧视频的限制。它支持生成最多64帧的视频，超越了Stability AI SVD设定的25帧行业标准。该项目提供了更高的帧数生成能力，适用于需要高质量帧生成的动画项目，并且可以与ComfyUI集成，优化视频生成流程。

暂无评论

暂无评论...