OK-Robot官网 – 零样本家庭拾取机器人

OK-Robot 是一个由 Meta 和纽约大学合作开发的开源机器人框架，专注于零样本、基于语言的拾取和放置任务，特别适用于真实家庭环境。它利用视觉语言模型（VLM）进行物体检测，结合导航和抓取模块，无需预训练即可执行任务。项目在10个真实家庭环境中测试，成功率达到58.5%，在整洁环境中可提升至82%。

OK-Robot的特点:

1. 模块化设计，便于扩展和集成
2. 零样本能力，无需预训练即可执行任务
3. 语言条件控制，通过语言指令实现物体检测和任务执行
4. 视觉语言模型（VLM）用于基于语言查询的物体检测
5. 导航模块使用 A* 算法和 3D VoxelMap 进行路径规划和导航
6. 抓取模块集成 AnyGrasp 和 LangSam 模型，支持开放词汇抓取
7. 放置功能，包含 dropping primitive 完成放置操作

OK-Robot的功能:

1. 在真实家庭环境中执行拾取和放置任务
2. 通过语言指令识别和抓取特定物体
3. 用于家庭服务机器人，协助整理和搬运物品
4. 在复杂环境中进行物体识别和导航
5. 用于研究和开发零样本机器人技术

相关导航

VILA开源项目 – 高效视觉语言模型

VILA是一系列开源的视觉语言模型（VLM），旨在优化视频理解和多图像理解的效率和准确性。它通过预训练和多模态设计，支持长视频理解、多图像推理和高效的边缘部署。VILA在多个基准测试中表现优异，适用于自动驾驶、医疗影像分析等领域。

olmOCR官网 – 高效提取PDF结构化内容

olmOCR 是一个端到端的 PDF 文档解析工具，结合视觉语言模型（VLM）和文档锚定技术，能够高效提取 PDF 文档中的结构化内容，如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型，显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架，能够高效处理大规模数据，并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计，能够保持自然阅读顺序，同时处理图形、手写文本和低质量扫描件。

MONAI Vision Language Models开源项目 – 致力于医学应用的视觉语言模型

一个致力于医学应用的视觉语言模型集合，旨在解决通用模型在医学领域的挑战，并与专家分割和分类模型集成。

BotticelliBots官网 – 构建通用机器人的开源框架

Botticelli是一个开源的.NET Core框架，用于构建与数据库、队列代理、语音引擎和AI引擎集成的通用机器人。用户可以通过从GitHub克隆框架库来开始使用Botticelli，然后轻松构建和部署跨平台支持的机器人，集成数据库、AI解决方案、语音合成器和队列代理。

Qwen-VL-强大的视觉语言模型

阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型，结合了图像和文本输入，能够生成准确的文本和边界框输出，增强了图像描述、问答、定位和文本-图像理解等任务的能力。

VLM-R1开源项目 – 视觉语言领域的R1方法迁移

VLM-R1是一个开源项目，成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域。该项目基于Qwen2.5-VL，对比了R1和传统的SFT方法，展示了其在多模态图像识别领域的突破性进展。VLM-R1在各种复杂场景下保持稳定的高性能，并展示了卓越的泛化能力，能够适应多种场景和任务而无需专门训练。项目在GitHub上线后迅速获得广泛关注，并登上平台热门趋势榜。

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

Awesome-VLM-AD-ITS开源项目 – 自动驾驶与智能交通系统的视觉语言模型研究

该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究，涵盖了感知理解、导航规划、决策控制等多个领域，提供最新研究进展和相关论文，旨在推动该领域的发展和应用。

VILA开源项目 – 高效多模态视觉语言模型

VILA 是一个开源视觉语言模型 (VLM) 系列，旨在优化效率和准确性，适用于边缘、数据中心和云计算环境。它采用交错图像-文本预训练方法，支持多图像处理，并具有强大的上下文学习能力，能够快速学习新概念。VILA 在视频理解、多图像推理等任务中表现出色，广泛应用于研究和工业领域。

LLaVA-pp开源项目 – 增强多模态任务处理能力

LLaVA++是LLaVA模型的扩展，集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型，旨在提升视觉和语言指令处理能力。项目通过引入新模型如Phi-3-V和LLaVA-3-V，专注于提高指令跟随能力和处理学术任务数据集的能力。LLaVA++在多模态任务中表现出色，尤其是在指令跟随和视觉语言任务方面。项目提供了详细的安装指南和更新脚本，便于本地部署和测试。Model Zoo中列出了所有可用模型及其Hugging Face页面链接，方便用户访问和利用预训练权重。项目还更新了文档，包含最新发展和模型细节，并提供了完整的代码库，包括训练和微调模型所需的所有脚本和模块。此外，项目改进了README文件，突出了其开源性质和模型升级的重要性。

Awesome-Spatial-Reasoning开源项目 – 空间智能研究资源大全

该项目为大语言模型（LLM）和视觉语言模型（VLM）的空间智能研究提供了一个全面的论文清单，涵盖了从2023年到2025年的最新研究成果。项目不仅包括视觉和文本两种空间推理方法，还提供了20多个空间推理数据集和基准，是空间推理领域的重要学术参考资源。

Vision-is-all-you-need开源项目 – 创新的文档检索系统

创新的文档检索系统(V-RAG)，无需传统的文本分块，直接利用视觉语言模型处理PDF文档。

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

CheXagent-用于胸部X光片解读的基础模型

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

暂无评论

暂无评论...