Ola开源 – 全能多模态语言模型

Ola是一个开源的全能多模态语言模型，旨在打破多模态理解的边界，支持文本、图像、视频和音频的全面理解。它采用渐进式模态对齐策略（PMA），通过三个阶段（文本-图像、语音、视频）逐步扩展模型能力，确保在不同模态间的性能平衡。Ola-7B版本在OpenCompass多模态排行榜上平均得分72.6，排名第一，是参数少于15B的模型中表现最佳的。此外，Ola支持实时流式解码功能，增强文本和语音交互的流畅性，适合需要高级交互体验的场景。

Ola的特点:

1. 渐进式模态对齐策略：分阶段训练（文本-图像→语音→视频），逐步扩展模型能力
2. 多模态支持：支持文本、图像、视频和音频输入，提供一站式多模态理解解决方案
3. 竞争性性能：Ola-7B在OpenCompass多模态排行榜上排名第一，平均得分72.6
4. 实时流式解码：支持句子级解码，增强文本和语音交互的流畅性
5. 开源特性：模型权重、代码和数据完全开源，方便研究和开发

Ola的功能:

1. 多模态内容分析：如图像分析、视频理解和音频处理
2. 交互式AI系统：支持流式语音生成，适合实时对话和语音交互场景
3. 研究与开发：用于多模态理解的研究，特别是图像、视频和音频领域
4. 基准测试比较：与现有开源多模态模型进行性能评估和优化
5. 开源访问：通过GitHub下载模型权重、代码和数据，进行自定义微调

相关导航

Segment Anything Model 2 (SAM 2)开源项目 – 图像和视频对象分割的开源AI模型

SAM 2 是 Meta AI 团队开发的开源 AI 模型，专注于图像和视频中的对象分割任务。它是全球首个支持视频实时抠像的 AI 大模型，能够在零样本前提下实现精准的对象分割。Meta 还提供了基于网络的演示体验，并共享了用于构建 SAM 2 的数据集 SA-V，许可为 CC BY 4.0。SAM 2 的设计基于简单的 Transformer 架构，支持实时视频处理，并提供了一个模型在环的数据引擎，通过用户交互改进模型和数据。

Orion-14B系列模型 – 多语言大型语言模型

Orion-14B系列是OrionStarAI开发的开源多语言大型语言模型，拥有140亿参数，基于2.5T多语言语料库训练，支持中文、英语、日语、韩语等多种语言。该系列模型在自然语言处理任务中表现出色，特别在日语和韩语测试集上表现突出。模型支持长文本处理、高效推理，并可作为其他模型的预训练基础。

Evoke官网 – 简化AI模型云托管

Evoke是一个平台，允许开发者和企业在云端托管AI模型，并通过API访问，省去昂贵的云设置成本。用户可以轻松上传AI模型，并高效地进行AI应用开发。

Ferret-UI-理解移动界面的多模态语言模型

Ferret-UI 是一个多模态大型语言模型，旨在更好地理解移动用户界面。它具有处理和理解用户界面屏幕的能力，特别是在引用、定位和推理方面，能够有效地处理图像和文本信息，并支持从基础到高级的UI任务训练。该模型还具备任意分辨率技术，可以放大细节，并在各种引用和定位任务上表现优异。

lm.rs开源项目 – Rust语言模型推理工具

一个用Rust语言编写的极简语言模型（LLM）推理工具，能够在没有机器学习库的情况下，在CPU上进行完整的语言模型推理，支持多种大型语言模型并具备多模态功能。

DeepSeek AI官网 – 高效低成本的大型语言模型

DeepSeek AI 是一家中国人工智能公司，专注于开发大型语言模型（LLM），成立于2023年7月，由High-Flyer对冲基金拥有和资助。其旗舰模型DeepSeek-R1于2025年1月发布，性能可与OpenAI的GPT-4和o1媲美，但训练成本显著降低。DeepSeek AI的核心创新包括混合专家（MoE）架构、多头潜注意力（MLA）和多令牌预测（MTP），这些技术显著减少了内存使用和训练成本。模型开源，供广泛用户和开发者使用，适用于聊天机器人和AI助手应用。

Cube Studio开源 – Roblox的3D生成AI系统

Cube Studio是Roblox平台的核心生成式人工智能系统，专注于3D和4D内容生成，主要用于游戏开发。它支持机器学习、深度学习和大型模型开发，提供从数据管理到模型部署的全流程支持，包括在线开发、分布式训练和推理服务。该系统于2025年3月16日发布，目前处于beta阶段，每日活跃用户超过8500万。它通过文本提示生成3D模型和环境，未来计划支持图像输入，成为多模态模型。

mllm-mmrotate开源 – 空中目标检测的多模态语言模型基准

mllm-mmrotate是一个专注于空中目标检测的项目，通过多模态语言模型（MLLM）为无人机和其他空中设备提供精确的物体识别能力。项目引入规范化方法将检测输出转换为与MLLM兼容的文本输出，并提出新的评估方法以确保与传统检测器的公平比较。支持光学图像（如DOTA-v1.0、DIOR-R）和SAR图像（如SRSDD、RSAR），扩展了在不同数据类型上的应用潜力。

Grok-1开源项目 – 开源的AI文本模型

Grok-1 是一个开源的AI模型，基于大量文本数据进行训练，未针对特定任务进行微调。

Aleph Alpha官网 – 安全、合规的AI平台

Aleph Alpha是一个前沿的AI平台，旨在改变企业和政府与人工智能的互动方式，提供符合高标准的合规性、透明性和安全性的先进大型语言模型和生成AI能力。

Qwen2.5-VL开源项目 – 强大的多模态语言模型

Qwen2.5-VL是一款功能强大的多模态语言模型，擅长视觉-语言任务，具备增强的文档解析、物体定位和视频理解能力。

LongWriter开源项目 – 超长文本生成AI模型

LongWriter是由清华大学和智普联合开源的一种超长输入、超长输出的AI模型，旨在通过超长上下文输入和超长答案输出来确保正确的答案隐藏在输出中。该模型通过构建包含更长文本的高质量训练数据集，显著提升了模型的长文生成能力。LongWriter开源了两个模型：THUDM/LongWriter-llama3.1-8b和THUDM/LongWriter-glm4-9b，并提供了试用空间进行测试。该模型能够生成连贯、逻辑性强的长篇文章，致力于释放长上下文LLM的10,000+字生成能力。

VIMA开源项目 – 连接机械臂的多模态语言模型

VIMA是一款连接了机械臂的语言模型（LLM），能够接收多模态的指令，支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作，支持多模式提示，使任务描述简单灵活，统一多种任务，如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目，VIMA提供了代码、预训练模型、数据集和物理模拟基准，无需付费或填写表格，便于用户使用和开发。

GPT-4.5官网 – OpenAI最新高性能语言模型

GPT-4.5是OpenAI开发的最新大型语言模型，性能显著超越GPT-4，尤其在数学和物理领域的可靠性上有显著提升。微软计划托管该模型并更新其Copilot服务。该模型支持多模态能力，包括文本、图像和文件交互，并提供更自然的对话体验和情感分析能力。

WALDO开源项目 – 无人机低空目标检测AI模型

WALDO是一款基于YOLO-v8大模型和合成数据训练的AI检测模型，专为无人机领域的低空可识别目标检测而设计。它能够在高空和低空图像中高效检测多种目标，如轻型车辆、人员、建筑物、公用设施杆、船只、自行车、集装箱、卡车、储气罐、挖掘机、太阳能电池板、巴士等。该模型已成功应用于灾害评估中的失踪人员搜索、野生动物保护区中的入侵监测、停车场和交通流量管理中的人数和车辆计数、建筑工地和基础设施的远程监控等场景。

暂无评论

暂无评论...