Grok-1.5 Vision官网 – xAI发布的多模态视觉模型

Grok-1.5 Vision是xAI在2024年4月发布的首代多模态视觉模型，专注于图像生成与分析。它能处理文档、图表、截图和照片等多种视觉信息，在RealWorldQA等基准测试中表现优异（空间理解得分68.7%），尤其擅长现实世界空间推理和跨学科任务。目前未向公众开放，仅限早期测试者和现有Grok用户使用。

Grok-1.5 Vision的特点:

1. 多模态处理：支持文本、图表、照片等多种视觉信息
2. 空间理解能力：在RealWorldQA基准测试中领先（68.7%）
3. 代码生成：可从流程图自动生成Python等代码
4. 零样本学习：无需链式思维提示即可完成任务
5. 多学科推理：在MMMU（53.6%）、Mathvista（52.8%）等测试中表现突出
6. 文档解析：支持DocVQA（85.6%）、ChartQA（76.1%）等专业场景

Grok-1.5 Vision的功能:

1. 教育领域：解析科学图表并生成教学代码
2. 办公场景：自动处理文档/截图中的结构化信息
3. 空间导航：回答物体尺寸比较、路径规划等实际问题
4. 科研辅助：可视化数据分析和跨模态推理
5. 开发工具：根据设计图自动生成程序代码框架

相关导航

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

CodeGPT开源项目 – 增强编程体验的 JetBrains 插件

CodeGPT 是一个免费的 JetBrains 插件，提供对先进大型语言模型（如 GPT-4、Claude 3、Code Llama 等）的访问，以增强程序员的编程体验和效率。该插件集成在 JetBrains 开发环境中，支持多种编程语言，帮助开发者更轻松地编写和优化代码。

GasbyAI官网 – 智能个人助手，快速响应各类问题

GasbyAI是一个基于AI的个人助手，能够即时回应任何问题或查询，支持健身、代码生成、市场营销和文案写作等多个主题。用户只需提供OpenAI API密钥，无需登录即可使用。

Cognizise官网 – 面向AGI的资源高效架构平台

Cognizise是一个专注于开创资源高效架构的人工通用智能(AGI)平台，旨在解决复杂的挑战。

Chinese Mixtral开源项目 – 中文混合专家大模型

中文Mixtral混合专家大模型，基于Mistral.ai发布的Mixtral模型，经过中文增量训练和指令精调，支持长文本处理与多种应用框架。

DeepSeek-V3-0324模型 – 高效推理的大型语言模型

DeepSeek-V3-0324 是由DeepSeek AI开发的大型语言模型，采用Mixture-of-Experts (MoE)架构，总参数约为6850亿。该模型利用Multi-head Latent Attention (MLA)和DeepSeekMoE架构，创新性地引入了无辅助损失的负载均衡策略，并设置多令牌预测训练目标以提升性能。在14.8万亿多样化高品质令牌上预训练后，通过监督微调和强化学习进一步优化，DeepSeek-V3-0324 在推理、代码生成和其他语言任务中表现出色。

OWL开源项目 – 多智能体协作的优化框架

OWL（Optimized Workforce Learning）是一个基于 CAMEL-AI 框架构建的多智能体协作工具，旨在通过多代理交互完成复杂的现实任务，并在 GAIA 基准测试中排名第一。它支持多模态处理、浏览器操作、文件解析、代码执行等功能，并包含丰富的工具包，满足各类特定任务需求。

Expert robot pro官网 – 释放人工智能的强大力量

Expert robot pro 是一款多功能的人工智能服务平台，提供内容生成、图像创作、代码生成、虚拟助手和语音转文本等多种AI服务，旨在帮助用户轻松实现各种创意和工作任务。

Bito AI: Bring ChatGPT to your IDE for devs官网 – 为开发者带来ChatGPT的IDE助手

Bito AI是一个为开发者设计的AI虚拟助手，旨在提升编码体验和工作效率。它可以与多种IDE集成，提供代码生成、单元测试创建、代码注释、代码性能改进以及新代码解释等功能。

Qodo Gen官网 – AI驱动的IDE编码辅助工具

Qodo Gen 是一款嵌入开发者IDE的AI辅助工具，旨在通过深度理解代码上下文，帮助解决复杂逻辑问题，自动生成高覆盖率的测试用例，减少编码压力，提升代码质量。它支持所有编程语言，适合个人开发者和企业团队使用。

MChat官网 – 基于孟子GPT的多功能AI对话机器人

MChat是澜舟科技推出的基于孟子生成式大模型（Mengzi GPT）的AI对话机器人。它支持多语言、多模态数据处理，适用于知识问答、写作、金融任务等多种场景。MChat在C-EVAL和SUPERCLUE等基准测试中表现优异，尤其在金融知识图谱和研究报告提取方面有深度优化。

智谱清言官网

智谱清言是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型GLM-130B。

DeepSeek Chat官网 – 擅长数学、代码和复杂推理的聊天平台

DeepSeek Chat 是由国内大型模型平台 DeepSeek 发布的聊天平台，基于 DeepSeek-R1-Lite 推理模型。该模型在数学、代码和复杂推理任务上表现出色，能生成数万字的推理流程，帮助用户深入理解模型生成内容的整个过程。平台目前免费提供每日 50 次深度思维推理服务，并计划开源。研究表明，DeepSeek-R1-Lite 在多项测试中表现可能优于 OpenAI 的 o1 预览版。

MOSS官网 – 复旦大学开源对话模型

MOSS 是由复旦大学自然语言处理实验室开发的对话语言模型，类似于 ChatGPT，旨在帮助用户完成各种语言任务，如问答、文本生成等。该项目于 2023 年 2 月 20 日发布，目前处于研究预览阶段，免费提供，但访问受限，需通过问卷申请邀请码。MOSS 的设计理念包括有帮助、诚实和无害，计划完全开源，与 ChatGPT 相比参数较少，学习方式不同。

CodeGPT.nvim开源项目 – 与ChatGPT交互的Neovim插件

CodeGPT.nvim是一个用于Neovim的插件，提供与ChatGPT进行交互的命令，可以生成代码片段并进行调试。

暂无评论

暂无评论...