MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

MLX-VLM的特点:

1. 支持多种视觉语言模型，如 Qwen2-VL、Idefics 和 LLaVA
2. 针对苹果芯片进行优化，性能高效
3. 支持多模态输入（图像、视频、文本）
4. 提供 LoRA 和 QLoRA 微调功能
5. 支持多图像同时分析，适合复杂视觉推理任务
6. 支持视频分析，如字幕生成和摘要

MLX-VLM的功能:

1. 通过命令行生成模型输出
2. 使用 Gradio 启动聊天界面
3. 在 Python 脚本中调用模型进行推理
4. 进行多图像分析，支持复杂视觉任务
5. 进行视频分析，如描述视频内容
6. 使用 LoRA 和 QLoRA 对模型进行微调

相关导航

OK-Robot官网 – 零样本家庭拾取机器人

OK-Robot 是一个由 Meta 和纽约大学合作开发的开源机器人框架，专注于零样本、基于语言的拾取和放置任务，特别适用于真实家庭环境。它利用视觉语言模型（VLM）进行物体检测，结合导航和抓取模块，无需预训练即可执行任务。项目在10个真实家庭环境中测试，成功率达到58.5%，在整洁环境中可提升至82%。

Aider开源项目 – 智能编程助手，支持多模态输入

Aider是一个AI结对编程工具，支持多种输入形式，包括图片和语音，能够自动提交代码并抓取网页内容，为开发者提供便捷的编程辅助。

ColPali开源项目 – 使用视觉语言模型实现高效的文档检索

ColPali 是一个基于视觉语言模型的文档检索工具，旨在通过图像和文本的结合，提供高效的检索能力。它不再依赖传统的文本提取方法，而是利用具有后期交互机制的微调视觉模型，能够处理复杂文档并显著提升检索效果。该模型体积小且性能优于常规的基于文本和文本图像嵌入的方法，支持多模式索引和检索，适用于各种视觉丰富的文档。

MiniMind-V开源项目 – 极简视觉语言模型实现

MiniMind-V是MiniMind纯语言模型的视觉能力拓展，包含VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。它是开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。

Vision Parse开源项目 – 智能PDF转Markdown工具

将PDF文档转换为Markdown的智能工具，利用先进的视觉语言模型，能够精准识别并提取文本、表格和公式，保留文档格式和层次结构

Awesome-Spatial-Reasoning开源项目 – 空间智能研究资源大全

该项目为大语言模型（LLM）和视觉语言模型（VLM）的空间智能研究提供了一个全面的论文清单，涵盖了从2023年到2025年的最新研究成果。项目不仅包括视觉和文本两种空间推理方法，还提供了20多个空间推理数据集和基准，是空间推理领域的重要学术参考资源。

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

LLM-zero2hero开源项目 – 高度解耦的大语言模型微调项目

LLM-zero2hero是一个高度解耦的微调项目，旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力，使用户能够灵活地调整模型以满足特定需求。

NVIDIA Isaac GR00T N1开源 – 全球首个开源通用人形机器人基础模型

NVIDIA Isaac GR00T N1是全球首个开源的通用人形机器人推理与技能基础模型，支持多模态输入（语言/图像），基于大规模真实数据、合成数据和互联网视频训练，可适配不同机器人形态和任务。专为工业场景设计（如抓取/物品转移），实测任务成功率高达76.8%，提供便捷微调工具降低开发门槛。

NanoLLM开源项目 – 优化LLM本地推理的平台

NanoLLM 是一个专门为大语言模型(LLM)提供优化本地推理的平台，支持 HuggingFace 风格的 API，具备量化、视觉/语言模型、多模态Agent、语音处理、矢量数据库集成和检索增强生成(RAG)等功能。

StarCoder 2开源项目 – 多语言代码生成模型

StarCoder 2是一系列先进的代码生成模型，支持超过600种编程语言以及自然语言文本，如维基百科、Arxiv和GitHub问题。这些模型采用了分组查询注意力机制，拥有16384 token的上下文窗口和4096 token的滑动窗口注意力。其中，3B和7B模型经过3万亿token的训练，15B模型则经过4万亿token的训练，使其在代码生成和处理方面表现出色。

lmms-finetune开源项目 – 多模态大模型微调工具

lmms-finetune 是一个多模态大模型微调工具，提供了一个统一的代码库，简化了微调流程，支持微调多种LLM。它支持完整模型微调和LoRA微调两种方式，并且具有良好的扩展性，能够满足不同场景下的需求。

localGPT-Vision开源项目 – 通过视觉模型与文档对话

localGPT-Vision是一个通过视觉语言模型与文档进行对话的项目，采用了端到端的检索增强生成（RAG）流程，支持本地和专有的视觉语言模型，旨在提高文档交互的效率和准确性。

LLaVA-pp开源项目 – 增强多模态任务处理能力

LLaVA++是LLaVA模型的扩展，集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型，旨在提升视觉和语言指令处理能力。项目通过引入新模型如Phi-3-V和LLaVA-3-V，专注于提高指令跟随能力和处理学术任务数据集的能力。LLaVA++在多模态任务中表现出色，尤其是在指令跟随和视觉语言任务方面。项目提供了详细的安装指南和更新脚本，便于本地部署和测试。Model Zoo中列出了所有可用模型及其Hugging Face页面链接，方便用户访问和利用预训练权重。项目还更新了文档，包含最新发展和模型细节，并提供了完整的代码库，包括训练和微调模型所需的所有脚本和模块。此外，项目改进了README文件，突出了其开源性质和模型升级的重要性。