AI交流(进群备注:OK-Robot)

OK-Robot 是一个由 Meta 和纽约大学合作开发的开源机器人框架,专注于零样本、基于语言的拾取和放置任务,特别适用于真实家庭环境。它利用视觉语言模型(VLM)进行物体检测,结合导航和抓取模块,无需预训练即可执行任务。项目在10个真实家庭环境中测试,成功率达到58.5%,在整洁环境中可提升至82%。
OK-Robot的特点:
- 1. 模块化设计,便于扩展和集成
- 2. 零样本能力,无需预训练即可执行任务
- 3. 语言条件控制,通过语言指令实现物体检测和任务执行
- 4. 视觉语言模型(VLM)用于基于语言查询的物体检测
- 5. 导航模块使用 A* 算法和 3D VoxelMap 进行路径规划和导航
- 6. 抓取模块集成 AnyGrasp 和 LangSam 模型,支持开放词汇抓取
- 7. 放置功能,包含 dropping primitive 完成放置操作
OK-Robot的功能:
- 1. 在真实家庭环境中执行拾取和放置任务
- 2. 通过语言指令识别和抓取特定物体
- 3. 用于家庭服务机器人,协助整理和搬运物品
- 4. 在复杂环境中进行物体识别和导航
- 5. 用于研究和开发零样本机器人技术
相关导航

LLaVA-pp开源项目 – 增强多模态任务处理能力
LLaVA++是LLaVA模型的扩展,集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型,旨在提升视觉和语言指令处理能力。项目通过引入新模型如Phi-3-V和LLaVA-3-V,专注于提高指令跟随能力和处理学术任务数据集的能力。LLaVA++在多模态任务中表现出色,尤其是在指令跟随和视觉语言任务方面。项目提供了详细的安装指南和更新脚本,便于本地部署和测试。Model Zoo中列出了所有可用模型及其Hugging Face页面链接,方便用户访问和利用预训练权重。项目还更新了文档,包含最新发展和模型细节,并提供了完整的代码库,包括训练和微调模型所需的所有脚本和模块。此外,项目改进了README文件,突出了其开源性质和模型升级的重要性。
暂无评论...