SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

SmolVLM的特点:

1. 256M参数，是目前全球最小的视觉语言模型
2. 在DocVQA和MMMU等任务中表现出色
3. 使用小型SigLIP视觉编码器，支持高分辨率图像处理
4. 引入新的标记优化方法，提升训练稳定性和模型输出质量
5. 适合在低资源设备上运行

SmolVLM的功能:

1. 在受限设备（如消费级笔记本、浏览器环境）上进行多模态任务
2. 在处理海量数据时进行高效推理
3. 灵活部署于特殊任务，如多模态检索、图像问答等

相关导航

mm-cot开源项目 – 提升大语言模型在复杂任务中的表现

mm-cot是亚马逊开源的多模态链式思维（Multi-modal Chain of Thought）模型，旨在提升大语言模型在复杂任务中的表现。它支持多模态输入，包括文本和图像，并通过链式思维增强推理能力，特别针对复杂任务进行了优化的架构设计，方便研究人员和开发者进行二次开发。

Virgo开源项目 – 复现o1类多模态大型语言模型

初步探索复现o1类多模态大型语言模型，旨在通过结合视觉和文本数据，提升模型的推理和理解能力，推动人工智能在复杂任务中的应用

open-pi-zero开源项目 – 开源智能视觉行动模型

基于论文知识复现 Pi（Physical Intelligence）智能视觉行动模型的开源项目，主要功能是模拟人类如何通过视觉和语言理解来指导行动。

ChatChit AI官网 – 智能对话，轻松搞定WhatsApp

ChatChit AI是一个集智能对话、图像生成、语音转录、图像理解和媒体下载于一体的聊天助手，旨在提升WhatsApp的使用体验，帮助用户更高效地沟通和分享。

Chinese LLaVA-支持中英文双语视觉开源项目 – 文本对话的开源多模态模型

Chinese LLaVA是一个支持中英文双语的开源多模态模型，能够进行视觉与文本的结合对话，具备高效的理解能力和灵活的应用场景，适合商用开发。

MLX-VLM开源项目 – Mac上的视觉语言模型工具

MLX-VLM 是一个专为在 Mac 上进行视觉语言模型（VLM）推理和微调而设计的 Python 包。它利用 MLX 框架，针对苹果芯片进行了优化，支持多种 VLM 模型，如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力，支持图像、视频和文本的组合输入，并提供了 LoRA 和 QLoRA 微调方法。

olmOCR-mix-0225官网 – OCR模型训练数据集

olmOCR-mix-0225 是一个专为 OCR（光學字符識別）和文檔理解模型訓練設計的數據集，包含約 250,000 頁 PDF 文件，這些文件通過 gpt-4o-2024-08-06 轉換為純文本，保留了原始數字內容。數據集來源包括網絡爬取的 PDF 和互聯網檔案館的書籍，涵蓋多種類型文檔，如學術論文、宣傳冊和法律文件等，適用於訓練、微調或評估 OCR 文檔處理系統。數據集由 105,504 個唯一文檔和 266,135 頁組成，並提供了詳細的元數據和提取內容，支持多種 OCR 和文檔理解任務。

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

MaxDiffusion开源项目 – 高效AI扩散模型实现

MaxDiffusion是一个专注于AI扩散模型的高效实现与优化的项目，旨在为大规模训练和推理提供强大的支持。它支持多种主流扩散模型，并通过优化的TPU和GPU加速显著提升推理速度。此外，项目还引入了Flux LoRA等创新功能，进一步提高了推理效率。

ColPali开源项目 – 使用视觉语言模型实现高效的文档检索

ColPali 是一个基于视觉语言模型的文档检索工具，旨在通过图像和文本的结合，提供高效的检索能力。它不再依赖传统的文本提取方法，而是利用具有后期交互机制的微调视觉模型，能够处理复杂文档并显著提升检索效果。该模型体积小且性能优于常规的基于文本和文本图像嵌入的方法，支持多模式索引和检索，适用于各种视觉丰富的文档。

Vision Parse开源项目 – 智能PDF转Markdown工具

将PDF文档转换为Markdown的智能工具，利用先进的视觉语言模型，能够精准识别并提取文本、表格和公式，保留文档格式和层次结构

Florence-2-large官网 – 微软开发的视觉语言模型

Florence-2-large 是微软开发的一个视觉语言模型，基于序列到序列学习范式，支持多种视觉任务。它通过 FLD-5B 数据集训练，包含 126 百万张图像和 54 亿个全面视觉注释，能够处理复杂的视觉数据，如对象位置、遮罩轮廓和属性，并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。

localGPT-Vision开源项目 – 通过视觉模型与文档对话

localGPT-Vision是一个通过视觉语言模型与文档进行对话的项目，采用了端到端的检索增强生成（RAG）流程，支持本地和专有的视觉语言模型，旨在提高文档交互的效率和准确性。

DigiQ开源项目 – 用AI驱动设备控制的新方法，让机器学习更高效！

DigiQ 是一个利用人工智能技术，帮助用户通过少量数据训练高效的设备控制智能体的项目。它创新性地结合了视觉语言模型（VLM），显著提升了学习效果，并提供了完整的代码和预训练模型，方便用户复现和使用。

Awesome-VLM-AD-ITS开源项目 – 自动驾驶与智能交通系统的视觉语言模型研究

该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究，涵盖了感知理解、导航规划、决策控制等多个领域，提供最新研究进展和相关论文，旨在推动该领域的发展和应用。

OK-Robot官网 – 零样本家庭拾取机器人

OK-Robot 是一个由 Meta 和纽约大学合作开发的开源机器人框架，专注于零样本、基于语言的拾取和放置任务，特别适用于真实家庭环境。它利用视觉语言模型（VLM）进行物体检测，结合导航和抓取模块，无需预训练即可执行任务。项目在10个真实家庭环境中测试，成功率达到58.5%，在整洁环境中可提升至82%。

NanoLLM开源项目 – 优化LLM本地推理的平台

NanoLLM 是一个专门为大语言模型(LLM)提供优化本地推理的平台，支持 HuggingFace 风格的 API，具备量化、视觉/语言模型、多模态Agent、语音处理、矢量数据库集成和检索增强生成(RAG)等功能。

xLSTM-7B开源项目 – 扩展LSTM模型，高效推理

xLSTM-7B是一种扩展的LSTM模型架构，通过引入Exponential Gating和Matrix Memory等技术，克服了传统LSTM的局限性。相较于Transformer架构，xLSTM-7B在推理速度和参数效率方面表现出显著优势，适用于多种序列数据处理任务。

VLM-R1开源项目 – 视觉语言领域的R1方法迁移

VLM-R1是一个开源项目，成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域。该项目基于Qwen2.5-VL，对比了R1和传统的SFT方法，展示了其在多模态图像识别领域的突破性进展。VLM-R1在各种复杂场景下保持稳定的高性能，并展示了卓越的泛化能力，能够适应多种场景和任务而无需专门训练。项目在GitHub上线后迅速获得广泛关注，并登上平台热门趋势榜。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

暂无评论

暂无评论...