图像-文本检索

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS是一个一站式的语言-视觉智能库，支持多种语言-视觉任务，集成多种预训练模型，提供简单易用的API，以及自定义模型的训练和评估，具备高效的推理速度和性能。

图像-文本检索图像描述生成多模态生成模型生成式视觉内容创作

LLaVA开源项目 – 轻量级多模态GPT-4助手

LLaVA开源项目 – 轻量级多模态GPT-4助手

LLaVA是一个轻量级的多模态大模型推理框架，结合了视觉和语言理解能力，基于LLaMA架构和视觉Transformer，支持图像+文本的高效处理。它能够理解和分析图像内容，适用于视觉问答、图片理解、AI助理等多种任务。

LLaVA图像描述生成图像问答多模式GPT-4助理

BMTools开源项目 – 面壁智能自研的大模型工具学习引擎

BMTools开源项目 – 面壁智能自研的大模型工具学习引擎

BMTools是面壁智能开发的一个大模型工具学习平台，专注于问答系统的构建和训练，填补了国产大模型在该领域的空白，支持多种中文应用。

中文应用大模型工具开源模型问答系统

GPT4视觉用例集锦开源项目 – 多种视觉任务的强大工具

GPT4视觉用例集锦开源项目 – 多种视觉任务的强大工具

GPT4视觉用例集锦是一个集合了多种视觉任务的项目，基于最新的GPT-4模型，提供丰富的示例和用例，旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口，支持图像分类、对象检测、图像生成和视觉问答等功能，适用于广泛的应用场景。

API接口GPT-4视觉任务图像分类图像生成

Yi开源项目 – 高效多用途的大型语言模型框架

Yi开源项目 – 高效多用途的大型语言模型框架

Yi是一个专为高效语言模型设计的开源框架，支持从零开始训练的大型语言模型。它包含两款双语模型Yi-6B及Yi-34B，均自研训练，参数规模分别为6B和34B。Yi通过优化算法与资源管理，提供从实验到部署的完整流程，支持多种语言的文本生成、对话系统和问答任务。

内容创作大型语言模型对话系统文本生成

StableLM开源项目 – 开源的大语言模型，支持商用

StableLM开源项目 – 开源的大语言模型，支持商用

StableLM是Stability AI最新开源的大语言模型，目前开放的是3B和7B的版本，后续会开放更大规模的模型，适合商用。

内容创作商用AI模型对话系统开源大语言模型

Catbird.ai官网 – 多模型图像生成工具

Catbird.ai 是一个多模型图像生成工具，允许用户通过单一提示同时从多个AI模型生成图像，提供丰富的输出选项，适用于各种用途。

AI生成视觉内容多模型图像生成工具视觉内容创作工具

Ferret-一款出色的多模态大型语言模型

Ferret是来自苹果的新型多模态大型语言模型，擅长图像理解和语言处理，尤其在理解空间参考方面展现了显著的优势。

图像理解多模态交互多模态大型语言模型空间参考理解

出门问问序列猴子开源数据集开源项目 – 超大规模语言模型，支持多轮交互

出门问问序列猴子开源数据集开源项目 – 超大规模语言模型，支持多轮交互

出门问问提供的超大规模语言模型，基于其通用的表示与推理能力，支持多轮交互，能够大幅度提高生产效率和数据处理能力，被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域

多轮交互文本摘要机器翻译自然语言处理

Google Gemini Showcase And Guide官网 – 谷歌最新的多模态AI模型

Gemini是谷歌最大的AI模型，旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色，支持不同尺寸的优化：Ultra、Pro和Nano。Gemini从零开始构建为多模态，能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。

代码生成图像生成复杂推理多模态AI模型

Gemini APK for Android and iOS官网 – 谷歌开发的智能聊天机器人

Gemini是由谷歌DeepMind开发的生成性人工智能聊天机器人，能够基于大量公开数据进行训练，能够与用户进行人类般的对话并生成文本，适用于多种问题的回答和任务的执行。

图像生成数学问题解答生成性人工智能聊天机器人用户指导

FlowModels开源项目 – 流匹配的生成模型实现库

FlowModels开源项目 – 流匹配的生成模型实现库

基于Flow-Matching的生成模型实现库，提供了多种流匹配生成模型的参考实现，包括RectFlow、LADD、Shortcut等模型，支持文本生成图像、图像反演等功能，并提供了多种求解器和优化方法。

Flow-Matching生成模型优化方法图像反演文本生成图像

AI Art Generator by Enhance AI官网 – 用AI轻松生成惊艳数字图像

Enhance AI是一个终极平台，利用AI创建和交互数字图像。它提供文本转图像、图像转图像、修补和放大等功能，用户可以轻松将自己的创意转化为惊艳且真实的图像。

AI生成数字图像图像修补图像放大文本转图像

ChatGLM-6B开源项目 – 开源双语多模态对话语言模型

ChatGLM-6B开源项目 – 开源双语多模态对话语言模型

ChatGLM-6B是清华大学开发的一个开源双语对话语言模型，基于General Language Model (GLM)架构，具有62亿参数。它支持中英双语对话，并具备图像理解的多模态功能。模型经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术，旨在提供高质量的对话生成和自然语言处理能力。结合模型量化技术，可在消费级显卡上本地部署（INT4量化级别下最低只需6GB显存），并针对中文问答和对话进行了优化。

图像理解多模态对话模型用户交互体验英文指令微调

RAGchain开源项目 – 用于开发RAG工作流的框架

RAGchain开源项目 – 用于开发RAG工作流的框架

RAGchain是一个用于开发支持大型语言模型(LLM)的高级检索增强生成(RAG)工作流的框架，提供了灵活的开发选项和易于集成的特点，帮助开发者构建高效的智能应用。

RAG工作流框架信息检索应用大型语言模型支持数据驱动内容生成工具

WebGLM开源项目 – 高效经济的网络增强问答系统

WebGLM开源项目 – 高效经济的网络增强问答系统

WebGLM旨在利用拥有100亿参数的通用语言模型（GLM）提供高效且经济实惠的网络增强问答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中，来改善现实世界应用程序部署。

经济实惠部署网络增强问答系统预训练语言模型高效问答系统

Vision AI官网 – 印度最佳基础AI模型

Vision是印度最佳的基础AI模型，以独特的方式构建，减少训练和计算资源，而不影响出色的结果。该强大模型能够生成引人入胜的文本和生动的图像。

AI基础模型图像生成广告营销教育培训

AntiSlop Sampler开源项目 – 提高文本生成质量和多样性

AntiSlop Sampler开源项目 – 提高文本生成质量和多样性

高级文本生成工具，旨在提高语言模型输出的质量和多样性，通过动态调整和回溯机制来减少指定的过度使用词汇和短语（即 'GPT slop'）的生成概率

创意写作动态调整机制回溯机制广告文案生成

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3