Unified Video Action Model (UVA)官网 – 机器人视频理解与动作预测的统一模型

UVA是一个专为机器人设计的模型，通过两阶段训练（视频生成+动作预测）实现视频理解与动作预测的统一。
它采用联合潜在空间优化、解耦解码等技术，支持多种机器人任务数据集（如PushT、Libero10），在多项任务中超越现有先进模型。
项目提供Colab笔记本快速体验，适用于模拟和真实机器人场景。

Unified Video Action Model (UVA)的特点:

1. 联合视频-动作优化：统一潜在空间建模视频与动作关系
2. 解耦视频-动作解码：推理时跳过视频生成提升效率
3. 掩码输入训练：单模型处理多任务，减少过拟合
4. 支持PushT/Libero10等机器人数据集
5. 多任务性能超越DP-UMI等先进模型
6. 提供Colab笔记本快速体验入口

Unified Video Action Model (UVA)的功能:

1. 机器人推块任务的动作策略指导
2. 基于视觉变化的逆向动力学预测
3. 未来4帧视频生成（需高算力支持）
4. 利用无动作视频数据进行扩展训练
5. 多模态扩展（如声音/力传感器数据整合）
6. 机器人长期任务规划（如Libero10长时程任务）

相关导航

Unified Video Action Model开源项目 – 统一视频与动作建模

Unified Video Action Model 是一个专注于视频与动作建模的项目，旨在帮助机器人理解视频内容并预测后续动作。通过两阶段的训练方法，先进行视频生成，再进行动作预测，从而实现更优的效果。该项目支持多种模拟与真实机器人任务，涵盖了PushT、Libero10等数据集，并提供了Colab笔记本，方便用户快速上手体验。

Codex开源项目 – AI代码生成与优化模型

Codex是OpenAI推出的AI代码生成与优化模型，能够理解自然语言指令，自动编写、优化和补全代码。它支持多种编程语言，并能根据代码上下文提供智能建议，适用于代码生成、错误修复、性能优化等场景。

video-subtitle-remover开源项目 – AI视频硬字幕去除工具

Video-subtitle-remover (VSR) 是一款基于AI技术的视频硬字幕去除软件，支持无损分辨率、自定义字幕位置、全视频自动去除所有文本等功能。该软件通过超强AI算法模型，对去除字幕文本的区域进行填充，支持多选图片批量去除水印文本，适用于Windows、macOS和Linux系统。

A2A开源项目 – 开源智能体交互协议

A2A是谷歌开源的智能体间通信协议，旨在解决不同框架和厂商构建的AI智能体之间的互操作性问题。它通过标准化通信方式，使异构智能体能够安全协作，支持多模态交互（文本/表单/音视频）和复杂任务管理。协议基于HTTP/JSON等开放标准，包含服务发现、实时流传输、推送通知等企业级功能。

LIMO开源项目 – 少数据提升大模型数学推理能力

LIMO项目研究如何在只有少量训练数据的情况下，让大型语言模型具备复杂的数学推理能力。项目验证了少数据量的训练数据是否能够真正提升模型的推理能力，而不是仅仅让模型记忆训练数据。LIMO通过精心构造的高质量问题和推理链，利用预训练模型中的数学知识，仅需数百个示例即可激发模型的复杂推理能力。项目在多个数学推理基准测试中取得了显著的性能提升，并发布了高质量的数据集和评估工具。

LLM API开源项目 – 统一的聊天API，支持多种模型

LLM API 提供了一套完整的、类型安全且一致的聊天接口，支持 OpenAI、Anthropic 和 Azure 的聊天模型，能够在浏览器、边缘计算和节点环境中灵活使用。

Luny-AI官网 – AI生成高质量用户界面

Luny-AI是一款专为产品设计师、产品经理和创始人打造的人工智能工具，能够生成高质量的用户界面，支持所有可编辑格式（如Figma、Framer、Webflow、XD等），并与各大产品管理平台（如Notion、Asana、Jira、Monday、Git等）无缝集成。

CommandDash官网 – 简化开发者库集成的工具

CommandDash 是一款革新性工具，帮助开发者在集成开发环境（IDE）中简化库、SDK 和框架的整合过程，提供上下文相关的代码建议并自动化重复任务，提升开发效率。

Pollo AI官网 – 革命性的视频创作工具

Pollo AI 是一个创新的 AI 视频生成器，通过将文本和图像转化为高质量的动态视频，简化了内容创作的过程，适合没有技术背景的用户。

Plat.AI官网 – 实时预测分析软件

Plat.AI 是一款预测分析软件，支持使用机器学习和深度学习算法构建和部署自定义模型，实现实时预测。它提供了自动化的模型构建平台，配备数据预处理工具、自定义建模解决方案和无代码建模能力。

Claude Code Source Code Deobfuscation – Claude Code反混淆版本

这是一个官方Claude Code npm包的Cleanroom反混淆版本，旨在帮助开发者快速理解和使用Claude Code的核心功能。项目提供了清晰的代码结构和完整的项目文件，包括代码和文档，方便学习和研究。目前，该项目已获得69星，显示了较高的关注度。

AI Video Composer官网 – 开源视频创作工具，轻松生成新视频

AI Video Composer 是一个开源的视频创作工具，基于 Qwen2.5-Coder，能够将上传的图片、视频和音频通过提示词生成全新的视频。用户可以通过简单的操作，轻松创建多种类型的视频内容，满足不同的创作需求。

ComfyUI-Manager开源项目 – 增强ComfyUI易用性的扩展工具

ComfyUI-Manager是一个旨在增强ComfyUI可用性的扩展工具，提供管理功能来安装、删除、禁用和启用ComfyUI的各种自定义节点。它通过克隆Git存储库并使用pip安装依赖项来安装自定义节点，并支持节点的更新和缺失节点的安装。该工具还提供了一个中心菜单，方便用户管理和查看自定义节点的信息。

Momentor开源项目 – 视频语言模型的精细时序推理

Momentor项目旨在通过精细的时序推理技术，推动视频语言模型的发展，提升视频内容的理解和分析效果。

InstructScene开源项目 – 指令驱动的3D室内场景合成

InstructScene 是一个基于指令驱动的3D室内场景合成项目，利用语义图先验技术，能够根据文本指令生成高质量的3D室内场景。该项目通过语义理解增强场景合成，提供了一种新的方式来设计和生成复杂的3D环境。