Recraft V3是由Recraft公司于2024年10月发布的先进AI模型,专注于将文本描述转换为高质量图像。它在Hugging Face的Text-to-Image模型排行榜中排名第一,适合设计师和插画师生成复杂场景。该模型支持多种功能,包括图像生成、补全、背景替换和矢量艺术生成,并通过API提供开发集成。
360智脑是由360公司开发的大型语言模型,专注于智能问答和对话服务。它在多模态能力、多轮对话和逻辑推理方面表现突出,综合能力在外部评测中领先。360智脑支持文学创作、角色扮演、语言翻译、编程等多种功能,覆盖多个专业领域。它还整合了360鸿图图像生成工具,提供多种风格和个性化选项。360智脑已整合到360的搜索和浏览器中,覆盖全球15亿终端,月活跃用户超过4亿。
序列猴子是由出门问问(Mobvoi)推出的大型语言模型,旨在提供智能对话和语言理解服务。该模型具备多模态生成能力,涵盖知识、对话、数学、逻辑、推理和规划六个维度,支持文本生成、图像生成、3D内容创建、语音合成和语音识别等多种任务。序列猴子于2023年4月推出,定位为ChatGPT的竞争者,适合开发面向消费者、企业和创作者的AI解决方案。
Microsoft Copilot(原Bing Chat)是一款由微软开发的AI聊天机器人,集成在Bing搜索引擎和Microsoft Edge浏览器中。它通过自然语言对话帮助用户获取信息、回答问题、生成创意内容,并提供智能化的搜索和交互体验。在中国,由于网络限制,用户需要使用VPN(如设置为美国服务器)才能访问,每天有25次免费使用次数。
Ora.sh 是一个为开发人员提供创建、训练和使用 AI 模型的网络平台,特别专注于聊天机器人的创建。它允许用户轻松创建自定义聊天机器人,无需编码知识,并提供访问如 GPT-4 的高级 AI 系统。平台还整合了 Stable Diffusion 实现图像生成,并拥有超过 100,000 个用户创建的聊天机器人库。用户可以通过描述需求创建机器人,并与预先制作的机器人互动,进行高级语言任务或生成图像。
mst.ai 是一个整合了 GPT-4、Midjourney 和 Stable Diffusion 的三合一 AI 平台,旨在为用户提供文本生成、图像生成和模型训练的功能。平台每天提供 2 次免费 GPT-4 使用,适合用户创建个性化艺术作品、生成文章和分享模型。尽管平台在 2023 年有更新,但 2025 年 3 月可能已停止服务,当前状态不明。
该模型是一个专为Stable Diffusion 1.5设计的ControlNet模型,主要用于亮度控制。它允许用户对灰度图像进行着色或对已生成的图像进行重新着色,扩展了Stable Diffusion在图像生成中的应用场景。模型兼容Stable Diffusion 1.5,能够精确控制生成图像的亮度,特别适用于需要调整光影效果的场景。
紫东太初2.0是由武汉人工智能研究院、中国科学院自动化所和华为公司联合研发的新一代多模态大模型平台,基于昇腾AI和MindSpore AI框架。它从全球首个图文音三模态大模型升级而来,旨在建设中国通用人工智能智能基础,加速认知智能时代的发展。平台支持文本、图像、视频、音乐、音频、3D和信号等多种模态,功能涵盖文本创作、图像生成、视频理解、音乐处理、3D场景描述和信号分析等。
MiniMax是一家成立于2021年12月的通用人工智能科技公司,专注于多模态大模型的研发与应用。公司通过自主研发的万亿参数MoE大模型,提供多样化的AI服务,包括文本、视频、图像、音频和音乐生成。MiniMax API开放平台为企业和开发者提供安全、灵活、可靠的API服务,支持快速搭建AI应用。用户可以通过注册试用体验其功能,演示站提供调试模式和提示词模板,降低使用门槛。
可灵AI是由快手大模型团队开发的新一代创意生产力平台,专注于视频生成,同时也支持图像生成。它基于快手自研的大模型,提供文生视频、图生视频、视频续写等功能,帮助用户高效创建艺术视频和图像。可灵AI支持多图参考功能,通过上传1至4张参考图片,结合文本描述生成视频,确保主题在多个场景中的视觉一致性,特别适合短片制作。
该项目是一个由B站用户T8发布的ComfyUI插件部署教程,主要介绍如何在ComfyUI中部署一个支持生成NSFW(Not Safe For Work)内容的插件。该教程可能涉及如何突破ComfyUI的默认限制,允许生成不受NSFW过滤器约束的文字和图片内容。由于无法直接访问视频,具体细节尚不明确,但推测教程可能包括插件的下载、配置以及在工作流中使用相关节点的步骤。
Napkin 是一个创新的 AI 工具,能够将用户的文本内容转化为视觉艺术,特别适合需要创意表达的场景,如写作、演示文稿和视频制作。它的核心功能是通过 AI 技术自动生成匹配的图像,并提供编辑和导出选项,使内容更具吸引力。Napkin 支持多种实用功能,包括自动生成图像、编辑与优化、多格式导出和灵活定制。此外,它还提供免费和专业计划,适合个人、小团队和大团队使用。
SiliconCloud 是一个专注于AI模型服务的云平台,旨在帮助开发者轻松集成和使用各种AI能力。它支持多种AI模型,包括DeepSeek-V3和DeepSeek-R1,基于华为云的Ascend云服务,确保高性能计算。平台提供网页和移动端服务,定价实惠,春节期间有折扣。开发者可以零门槛部署,直接调用API使用。
ChatBox AI 是一款支持多种平台的桌面 AI 客户端,特别适合不熟悉命令行操作的用户。它通过图形用户界面(GUI)与本地 AI 模型互动,支持 Ollama API 和 DeepSeek R1 等先进模型。ChatBox AI 提供免费和付费版本,功能包括文件聊天、代码辅助、实时网络搜索、图像生成等。数据默认本地存储,确保用户隐私。
ComfyUI-Allor 是一个专为图像处理设计的高性能 ComfyUI 插件,包含超过 90 个节点,每个节点都有丰富的参数供用户自定义。它支持透明度和多图像处理,所有操作均在张量空间中进行,避免了不必要的数据转换。插件完全可配置,允许用户禁用不需要的功能。通过 ComfyUI 的工作流,用户可以生成复杂的图像效果,包括文字生成、图像抠图、前景背景融合等。
Qwen Chat 是由 Alibaba Cloud 开发的对话 AI 平台,可能是“通义千问”的海外版本,使用 QwQ-32B 模型。它提供全面的 AI 功能,包括聊天机器人、图像和视频理解、图像生成、文档处理、网络搜索集成和工具利用等,旨在满足用户在对话、内容生成和数据处理等多方面的需求。
Janus-Pro-7B 是一个创新的多模态框架,旨在统一处理多模态理解和生成任务。它通过解耦视觉编码,分别处理理解和生成任务,使用 SigLIP-L 编码器提取图像的高维语义特征,并通过 VQ 分词器将图像转换为离散 ID 序列。其核心是一个自回归 Transformer,处理多模态特征序列。研究表明,该模型在扩展训练数据和模型规模后,从 1.5B 参数提升至 7B 参数,显著提高了性能,适合下一代统一多模态模型的发展。
Ask Robi 是一个基于 WhatsApp 的 AI 伴侣,名为 Robi,用户无需下载任何应用程序即可使用。它可以帮助用户完成多种任务,如生成原创图像、协助写作、翻译文本、解决复杂数学和编程问题等。Robi 存储在用户的联系人列表中,通过 WhatsApp 进行互动,遵循 WhatsApp 的数据隐私标准,确保用户数据的安全性和隐私性。
Lib.KALOS.art 是一个功能强大的AI艺术风格参考库,拥有超过1300位艺术家的风格和30,000多张图像,支持Stable Diffusion 1.5、Midjourney V4 和 Stable Diffusion 2.1等主流图像生成模型。用户可以通过浏览库、搜索艺术家或流派、查看风格,并使用提供的提示生成图像。
Forefront Chat 是一款免费的 AI 在线聊天机器人,支持多种主流模型,如 GPT-3.5、GPT-4、Claude Instant 和 Claude+。它提供图像生成、自定义角色和共享聊天等功能,用户可创建多个具有独特个性和能力的虚拟助手。适合个人、团队协作、教育研究等场景。虽然 GPT-4 和 Claude+ 模型每 3 小时限制 5 条消息,但其免费访问和多功能特性吸引了大量用户。
iThinkScene是一个专注于AI写作的工具,旨在帮助用户为小红书、抖音、微信、今日头条、知乎等多个社交媒体平台创建内容。它通过自动化生成和发布内容,简化了自媒体运营者和公司跨平台管理的流程。该工具支持批量生成不同平台的内容,提供病毒式帖子、图形、短视频和文章的创建功能,并具备文案和图像生成能力。此外,iThinkScene还支持定时发布和从基准账户自动复制发布,帮助用户高效管理多平台内容。
紫东太初是由中国科学院自动化研究所和武汉人工智能研究院推出的新一代大型AI模型。它支持多轮问答、文本创作、图像生成、3D理解和信号分析等任务,具备强大的认知、理解和创作能力。第二代版本(2.0)显著提升了决策和判断能力,应用场景包括医疗、交通和工业生产等领域。
360 智脑是由奇虎 360 公司独立开发的 AI 大模型,拥有数百亿参数规模和多模态生成能力。它支持文本生成、图像生成、文本到视频转换等功能,涵盖生成创作、多轮对话、逻辑推理等十大核心能力,旨在为用户提供强大的 AI 辅助工具。其训练基于 3.4 万亿 token 的语料库,支持多达 360K 的上下文长度,适用于复杂的 AI 交互场景。
智谱AI开放平台是由智谱AI开发的平台,提供免费API访问各种AI模型,包括大型语言模型(LLMs)、文本生成图像模型等。平台支持开发者通过API集成AI模型,特别适合需要文本生成、嵌入和多模态功能的企业。平台还提供Model-as-a-Service(MaaS)服务,满足企业定制化需求。
Le Chat 是由 Mistral AI 推出的一款多功能聊天机器人,类似于 ChatGPT,支持图像生成、网络搜索、Canvas 和 PDF 上传等功能。升级后的 Le Chat 完全免费,核心功能包括网络搜索、文档和图像理解、图像生成及快速响应,相对于竞争对手有明显优势。它集成了全面的信息访问和任务支持,适合从烹饪到编码的各种需求,强调自然对话和定制化能力,特别适用于技术和非技术用户。
Grok 是一款由 xAI 开发的生成式 AI 聊天机器人,xAI 由 Elon Musk 创立。它旨在提供未经过滤、幽默的回应,并具备高级的推理、编码和视觉处理能力。Grok 可通过 X 平台访问,提供实时网络搜索和图像生成等功能。最新版本 Grok 3 于 2025 年 2 月发布,免费向所有人开放,但免费用户有使用限制。
doubao 是由 ByteDance 开发的一款 AI 聊天机器人,具备多模态处理能力,支持文本、图像和音频处理。特别擅长生成包含中文字符的图像,适合制作海报。目前免费供个人使用,但生成的图像不可用于商业用途。doubao 还提供情感支持、翻译服务和编程辅助等功能,满足用户多样化需求。
Qwen Chat 是由阿里巴巴通义团队推出的免费AI聊天平台,基于Open WebUI构建,集成了多个Qwen AI大型模型。它支持多种模型、上传文档和图片、HTML预览等功能,未来计划扩展网页搜索、图像生成和语音模式等功能。平台旨在提供用户友好的多模态AI交互体验,涵盖自然语言处理、图像理解和编码任务等多个领域。
Large World Model (LWM) 是一个通用的大环境多模态自回归模型,专注于处理长视频和书籍数据。它使用RingAttention技术进行训练,能够处理多达100万token的上下文,支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集,解决了现有语言模型在处理复杂、长任务时的不足,尤其在文本图像生成、文本视频生成等任务中表现出色。
SDXS是小米开源的AI绘画扩散模型,通过知识蒸馏技术和单步DM训练方法,显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型,分别针对512x512和1024x1024分辨率的图像生成需求,单GPU环境下推理速度分别达到约100 FPS和30 FPS,相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练,适用于图像条件控制和图像到图像的高效转换。