AI开源项目 | 第 17 页

aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品，支持全平台（web/h5/pc/Android/iOS），包含会员账户系统和支付系统，完成度非常高。前后端项目完全开源，用户可自行部署，开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等，以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外，还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。

0

AI绘画AI聊天模型图像处理开源大模型

SDXS开源项目 – 小米开源AI绘画模型，生图速度提升30至60倍

SDXS是小米开源的AI绘画扩散模型，通过知识蒸馏技术和单步DM训练方法，显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型，分别针对512x512和1024x1024分辨率的图像生成需求，单GPU环境下推理速度分别达到约100 FPS和30 FPS，相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练，适用于图像条件控制和图像到图像的高效转换。

0

AI绘画模型ControlNet训练单步DM训练图像生成

Reader开源项目 – 将网页URL转换为LLM友好格式

Reader 是一个由 Jina AI 开发的开源工具，旨在将任何网页URL转换为大语言模型（LLM）友好的输入格式。它通过简单的前缀 `https://r.jina.ai/` 实现这一转换，从而帮助LLM更高效地处理和理解网络内容。Reader 还支持网页搜索功能，通过 `https://s.jina.ai/` 前缀，允许LLM访问最新的网络知识。该工具支持标准模式、流式和JSON格式输出，适用于自动化系统如聊天机器人、内容摘要生成器等场景。

0

LLM友好格式内容摘要生成器网页URL转换网页搜索

CTRL-F-VIDEO开源项目 – 视频关键词搜索工具

CTRL-F-VIDEO 是一个开源项目，旨在帮助用户在视频中搜索特定的单词或短语。它主要针对YouTube视频，通过Chrome扩展实现搜索功能。项目利用OpenAI的Whisper模型将视频中的音频转换为文本，从而实现准确的搜索和匹配。搜索结果会被存储在json文件中，便于之后再次访问该视频时快速获取之前的搜索结果。项目还支持时间轴高亮显示，帮助用户快速定位关键词在视频中的位置。

0

Chrome扩展OpenAI Whisper模型视频关键词搜索工具音频转文本

animate-your-word开源项目 – 动态文字动画生成

animate-your-word 是一个基于视频扩散先验的自动化文本动画生成项目，旨在通过将静态文字转化为动态视觉元素，增强语义表达和动态效果。该项目结合了字母的语义变形和动画技术，使用户能够通过简单的提示生成具有复杂情感和信息的动态文字动画。

0

动态文字动画生成自动化文本动画视频扩散先验语义变形

Supermemory开源项目 – 构建第二大脑的AI工具

Supermemory是一个帮助用户构建‘第二大脑’的工具，通过Chrome扩展和强大的AI功能，用户可以保存、组织并与互联网上的有价值内容进行交互。它允许用户将网页、推特收藏等转换为可搜索和可交互的格式，并通过类似ChatGPT的聊天方式与这些内容互动。Supermemory旨在为LLM（大语言模型）提供上下文知识，使其在多种场景下更加智能和实用。

0

AI辅助知识管理Chrome扩展第二大脑工具自托管AI工具

Video2Game开源项目 – 将视频转换为实时互动游戏环境

Video2Game 是一个将单个视频转换为实时互动、逼真的游戏和模拟环境的技术。它通过神经网络技术（NeRF）捕捉场景的详细视觉和几何信息，并将这些信息转化为游戏中的网格模型和物理行为。玩家可以在这些环境中行走、驾车、甚至与场景中的对象互动，如射击和碰撞，所有这些都遵循现实世界的物理法则。此外，这项技术还可以用于机器人模拟，例如使用机器人在虚拟环境中操控物体。

0

NeRF技术实时互动环境机器人模拟视频转游戏

TeToS开源项目 – 统一的多TTS服务接口

TeToS (Text-to-Speech Operating System) 是一个开源项目，提供了一个统一的接口来集成和使用多个文本到语音（TTS）服务提供商。它简化了开发者在不同TTS服务之间的集成和使用过程，使得开发者可以轻松地切换或同时使用多种不同的文本到语音服务。支持多种TTS服务提供商，如Edge-TTS、OpenAI TTS、Azure TTS、Google TTS、Volcengine TTS、Baidu TTS、Minimax TTS、迅飞 TTS和Fish Audio等。

0

TeToS多TTS服务接口开源项目文本到语音

Twitter-Insight-LLM开源项目 – Twitter数据抓取与分析工具

Twitter-Insight-LLM是一个开源项目，主要用于从Twitter抓取数据，并支持基于嵌入的图像搜索、数据分析和可视化、图像标注等功能。项目利用Selenium进行数据抓取，支持将数据保存为JSON和Excel格式，并提供初步的数据分析和图像标注功能。此外，项目还引入了实验性的基于嵌入的图像搜索功能，支持多语言搜索。

0

OpenAI APISeleniumTwitter数据抓取图像搜索

Magic Clothing开源项目 – 基于LDM的服装驱动图像合成

Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统，专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本，能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件，如肖像和参考姿势图像，并且提供了不同分辨率的模型权重。

0

Gradio界面Hugging Face模型权重Python脚本基于LDM的服装驱动图像合成

deepcharacters开源项目 – 实时自由视角渲染AI数字人

deepcharacters是一个基于TensorFlow的开源项目，旨在实现从稀疏RGB摄像头实时生成角色的自由视角视频。该项目支持高精度动态建模和4K分辨率渲染，仅需4个摄像头视角和3D骨骼姿势即可生成逼真的角色视频。项目代码结构清晰，包含深度学习框架、自定义TensorFlow操作符和CUDA渲染器，适用于计算机视觉和AI领域的研究与开发。

0

AI数字人CUDA渲染器TensorFlow实时自由视角渲染

VTracer开源项目 – 位图转矢量图工具

VTracer 是一个开源软件，用于将位图（如 JPG 和 PNG）转换为矢量图形（SVG）。它能够处理高分辨率扫描图像和低分辨率像素艺术，适用于历史文化资料数字化、设计工作和游戏开发等场景。与 Potrace 相比，VTracer 可以处理彩色图像，并且输出更紧凑的矢量文件。它最初设计用于处理高达千兆像素的历史蓝图扫描，同时也适用于复古游戏艺术的像素化处理。

0

位图转矢量图工具图像处理开源项目设计工具

deepfakes/faceswap开源项目 – 深度学习人脸交换工具

FaceSwap 是一个基于深度学习的工具，能够在图片和视频中识别并交换人脸。它支持多种功能，包括人脸交换、面部表情转换等，适用于娱乐、影视制作、隐私保护等领域。项目提供了详细的安装和使用指南，支持多种操作系统（Windows、Linux、MacOS），并且需要现代GPU以获得最佳性能。FaceSwap 不仅是一个强大的工具，还为开发者和爱好者提供了学习和实验AI技术的机会。

0

AI技术学习影视特效处理深度学习人脸交换工具隐私保护

Agently-Daily-News-Collector开源项目 – 自动新闻汇总生成器

Agently-Daily-News-Collector 是一个基于Agently AI应用开发框架的开源项目，能够根据用户输入的主题关键词，自动完成新闻汇总报告的结构设计、栏目组稿（含新闻检索、筛查、总结、栏目信息撰写）及报告MarkDown格式文件的输出全过程。该项目旨在通过AI代理自动生成高质量的新闻汇总报告，用户只需输入主题，AI代理将自动完成所有工作，并生成MarkDown格式的新闻汇总文件。

0

Agently AI框架AI生成新闻汇总报告开源项目自动新闻检索与总结

LoG开源项目 – 高效渲染大规模3D场景

LoG是浙江大学3DV小组提出的一种新型3D场景高效渲染方法，旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。它采用类似细节层次（LOD）的思想，通过树状结构存储高斯原始体，实现场景的高效渲染，适用于游戏开发、电影制作、城市规划和虚拟旅游等领域。

0

3D场景渲染城市规划游戏开发虚拟现实

kimi-free-api开源项目 – Kimi大模型的免费API接口

kimi-free-api 是一个提供 Kimi 大模型 API 的免费开源项目。Kimi 是一款国产智能大模型，支持中英文对话，具备200万字超长上下文输入能力，能够处理和分析大量文本信息。该项目允许用户通过 API 接入 Kimi，实现自部署，支持多轮对话、联网搜索、长文档解读、图像解析等功能。项目提供多种部署方式，包括 Docker、Docker-compose、Render、Vercel、Zeabur 等，并且与 OpenAI 的 API 完全兼容。

0

Docker部署Kimi大模型API与OpenAI兼容图像解析

Windrecorder开源项目 – 本地屏幕记忆搜索引擎

Windrecorder是一款通过记录屏幕上所有内容、实现记忆搜索的开源应用。它可以根据OCR文本或画面描述进行搜索，并提供活动统计、词云、时间轴等数据摘要。所有功能完全运行在本地，无需联网或上传数据，确保数据隐私。支持多语言（简体中文、English、日本语），并提供完善的webui界面。

0

OCR文本搜索图像语义查询数据隐私保护本地屏幕记忆搜索引擎

ChatGPT-On-CS开源项目 – 基于大模型的智能对话客服工具

ChatGPT-On-CS 是一个基于大语言模型（LLM）的集成客服系统，提供开箱即用的智能客服解决方案。它支持微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、拼多多、微博聊天、小红书专业号运营、小红书、知乎等多个平台接入，支持文本、语音和图片处理，通过插件访问操作系统和互联网等外部资源，并支持基于自有知识库定制企业AI应用。该项目可选择GPT3.5/GPT4.0/懒人百宝箱/FastGPT/DifyAI/通义千问/文心一言等平台大模型，适用于处理复杂或个性化的客户咨询。

0

多平台支持插件系统智能对话客服工具知识库定制

IC-Light开源项目 – 图像照明效果处理工具

IC-Light 是一款开源项目，用于操纵图像的照明效果。它提供了两类模型：文本条件重照明模型和背景条件模型。文本条件模型允许用户输入文本提示词（如“左侧光线”、“日光”）来生成具有特定光照方向和特征的图像。背景条件模型通过结合背景提示信息，可以对前景物体进行不同风格的光照变化。该工具利用HDR图像中光线传播的独立性，确保不同光源的混合效果与混合光源产生的效果一致。

0

HDR图像处理图像照明效果处理工具文本条件重照明背景条件重照明

AiEditor开源项目 – AI驱动的富文本编辑器

AiEditor是一款面向AI的下一代富文本编辑器，基于Web Component开发，支持多种前端框架（如Vue、React、Angular等），适配PC和手机端，提供亮暗两种主题。它支持私有ApiKey对接大模型，允许用户自定义AI功能和扩展菜单。此外，AiEditor提供开源版本和更强大的商业版本，适用于各种文本编辑应用。

0

AI驱动的富文本编辑器Web Component前端框架兼容开源项目

layerdivider开源项目 – 图片分层工具

Layerdivider 是一个基于机器学习的开源工具，能够将单张图片转换为分层的PSD文件。它通过识别并分离图像中的颜色区域，构建出与原始图像色彩相近但更具组织性的图层。该工具支持在Google Colab上运行，也可以在本地安装使用。

0

PSD文件生成图片分层工具开源项目机器学习

RAG-GPT开源项目 – 快速搭建智能客服的开源解决方案

RAG-GPT 是一个基于 Flask 框架的开源项目，利用大语言模型（LLM）和检索增强生成（RAG）技术，快速搭建智能客服系统。项目支持多种知识库集成，包括网站、独立URL和本地文件，提供灵活配置和快速部署的能力。用户可以通过 Docker 或源代码部署，支持多种 LLM 模型（如 OpenAI、ZhipuAI、DeepSeek、Moonshot 等），并内置了管理控制台和聊天机器人前端，便于管理和测试。

0

Flask框架LLMRAG开源项目

Qwen2.5开源项目 – 阿里巴巴开源的多语言AI模型

Qwen2.5是阿里巴巴开源的通义千问系列第二代AI模型，支持多种语言、代码和数学能力显著提升，上下文长度支持最高达到128K tokens。该模型提供了从0.5B到72B的不同规模版本，适用于各种应用场景。Qwen2.5在指令跟随、长文本生成、结构化数据理解等方面有显著改进，并且支持多达29种语言。

0

多语言AI模型开源项目模型微调模型推理

OpenCLAY开源项目 – 高质量3D模型生成AI

OpenCLAY是由影眸团队推出的3D生成AI模型，能够在几十秒内通过文本生成高质量的3D模型。该模型具有逼真的材质效果，支持多种输入类型和用户控制，适用于广泛的3D创作需求。

0

3D模型生成增强现实文本生成3D游戏开发

DynamiCrafter开源项目 – 静态图像转动画

DynamiCrafter是由香港中文大学、腾讯AI实验室和北京大学共同开发的项目，利用视频扩散先验技术将静态图像转换为动画。该项目支持多种主题和风格，如风景、人物、动物、交通工具、雕塑等，并且能够生成高分辨率、动态连贯的视频。DynamiCrafter还提供了生成帧插值和循环视频生成的功能，适用于多种应用场景，如故事讲述视频生成等。

0

帧插值循环视频生成自定义模型训练视频扩散先验技术

Translation Agent开源项目 – AI翻译智能体项目

Translation Agent 是一个基于LLM（大语言模型）的翻译智能体项目，由吴恩达开源。该项目通过提示LLM将一种语言翻译成另一种语言，并让LLM反思翻译结果，提出改进建议，最终利用这些建议优化翻译。项目展示了如何使用反思工作流进行机器翻译，具有高度的可定制性，能够通过修改提示词来调整翻译风格、处理特定术语和方言等。尽管该项目尚未成熟，但在某些情况下，其翻译效果甚至优于商业产品。项目鼓励更多的讨论、实验、研究和开源贡献，旨在推动翻译技术的进一步发展。

0

AI翻译智能体LLM翻译LLM翻译引擎反思工作流

Rembg开源项目 – 高效去除图片背景的工具

Rembg 是一款开源工具，专注于快速且精确地从图片中移除背景。它支持多种输入输出格式，可以作为命令行工具、库或Docker容器使用。Rembg 提供了多种预训练模型，适用于不同的使用场景，如人像分割、动漫角色分割等。它还支持GPU加速，适用于大规模图像处理任务。

0

Docker容器GPU加速去除图片背景命令行工具

Raneto开源项目 – 基于Markdown的Node.js知识库

Raneto是一个免费、开源、简单的基于Markdown的Node.js知识库，旨在帮助用户整理知识文档和构建知识体系。它支持文件化内容管理、搜索功能、浏览器内Markdown编辑、登录系统保护编辑权限，具有轻量级和易用性等特点。

0

Markdown文档管理Node.js知识库开源知识库

CompreFace开源项目 – 开源人脸识别系统

CompreFace是一个免费且开源的人脸识别系统，基于Docker应用，可以作为独立服务器或部署在云中。它提供了REST API，支持人脸识别、人脸验证、人脸检测、关键点检测、口罩检测、头部姿态检测、年龄和性别识别等功能。用户无需具备机器学习技能即可轻松集成和使用。CompreFace支持CPU和GPU，易于扩展，且具备角色管理系统，方便控制对服务的访问权限。

0

人脸检测人脸验证口罩检测头部姿态检测

DeepFaceLive开源项目 – 实时面部交换软件

DeepFaceLive 是一款基于深度学习技术的实时面部交换软件，支持在直播或视频通话中进行低延迟的面部替换。它能够完美复刻五官、脸型、嘴型、表情、牙齿和发型，生成的图像真假难辨。该软件与著名的换脸软件 DeepFake 同源，提供了多种功能模块，包括面部交换、面部动画等，适用于多种场景。

0

实时面部交换深度学习直播换脸视频通话换脸