aidea-server 是一款由国内独立开发者开源的AI大模型聊天、AI绘画、AI图生视频聚合集成产品,支持全平台(web/h5/pc/Android/iOS),包含会员账户系统和支付系统,完成度非常高。前后端项目完全开源,用户可自行部署,开箱即用。支持多种AI聊天模型如GPT、通义千问、文心一言等,以及开源大模型如Yi 34B、Llama2、ChatGLM2等。此外,还支持文生图、图生图、超分辨率、黑白图片上色、艺术字、艺术二维码等功能。
SDXS是小米开源的AI绘画扩散模型,通过知识蒸馏技术和单步DM训练方法,显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型,分别针对512x512和1024x1024分辨率的图像生成需求,单GPU环境下推理速度分别达到约100 FPS和30 FPS,相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练,适用于图像条件控制和图像到图像的高效转换。
Reader 是一个由 Jina AI 开发的开源工具,旨在将任何网页URL转换为大语言模型(LLM)友好的输入格式。它通过简单的前缀 `https://r.jina.ai/` 实现这一转换,从而帮助LLM更高效地处理和理解网络内容。Reader 还支持网页搜索功能,通过 `https://s.jina.ai/` 前缀,允许LLM访问最新的网络知识。该工具支持标准模式、流式和JSON格式输出,适用于自动化系统如聊天机器人、内容摘要生成器等场景。
CTRL-F-VIDEO 是一个开源项目,旨在帮助用户在视频中搜索特定的单词或短语。它主要针对YouTube视频,通过Chrome扩展实现搜索功能。项目利用OpenAI的Whisper模型将视频中的音频转换为文本,从而实现准确的搜索和匹配。搜索结果会被存储在json文件中,便于之后再次访问该视频时快速获取之前的搜索结果。项目还支持时间轴高亮显示,帮助用户快速定位关键词在视频中的位置。
animate-your-word 是一个基于视频扩散先验的自动化文本动画生成项目,旨在通过将静态文字转化为动态视觉元素,增强语义表达和动态效果。该项目结合了字母的语义变形和动画技术,使用户能够通过简单的提示生成具有复杂情感和信息的动态文字动画。
Supermemory是一个帮助用户构建‘第二大脑’的工具,通过Chrome扩展和强大的AI功能,用户可以保存、组织并与互联网上的有价值内容进行交互。它允许用户将网页、推特收藏等转换为可搜索和可交互的格式,并通过类似ChatGPT的聊天方式与这些内容互动。Supermemory旨在为LLM(大语言模型)提供上下文知识,使其在多种场景下更加智能和实用。
Video2Game 是一个将单个视频转换为实时互动、逼真的游戏和模拟环境的技术。它通过神经网络技术(NeRF)捕捉场景的详细视觉和几何信息,并将这些信息转化为游戏中的网格模型和物理行为。玩家可以在这些环境中行走、驾车、甚至与场景中的对象互动,如射击和碰撞,所有这些都遵循现实世界的物理法则。此外,这项技术还可以用于机器人模拟,例如使用机器人在虚拟环境中操控物体。
TeToS (Text-to-Speech Operating System) 是一个开源项目,提供了一个统一的接口来集成和使用多个文本到语音(TTS)服务提供商。它简化了开发者在不同TTS服务之间的集成和使用过程,使得开发者可以轻松地切换或同时使用多种不同的文本到语音服务。支持多种TTS服务提供商,如Edge-TTS、OpenAI TTS、Azure TTS、Google TTS、Volcengine TTS、Baidu TTS、Minimax TTS、迅飞 TTS和Fish Audio等。
Twitter-Insight-LLM是一个开源项目,主要用于从Twitter抓取数据,并支持基于嵌入的图像搜索、数据分析和可视化、图像标注等功能。项目利用Selenium进行数据抓取,支持将数据保存为JSON和Excel格式,并提供初步的数据分析和图像标注功能。此外,项目还引入了实验性的基于嵌入的图像搜索功能,支持多语言搜索。
Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统,专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本,能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件,如肖像和参考姿势图像,并且提供了不同分辨率的模型权重。
deepcharacters是一个基于TensorFlow的开源项目,旨在实现从稀疏RGB摄像头实时生成角色的自由视角视频。该项目支持高精度动态建模和4K分辨率渲染,仅需4个摄像头视角和3D骨骼姿势即可生成逼真的角色视频。项目代码结构清晰,包含深度学习框架、自定义TensorFlow操作符和CUDA渲染器,适用于计算机视觉和AI领域的研究与开发。
VTracer 是一个开源软件,用于将位图(如 JPG 和 PNG)转换为矢量图形(SVG)。它能够处理高分辨率扫描图像和低分辨率像素艺术,适用于历史文化资料数字化、设计工作和游戏开发等场景。与 Potrace 相比,VTracer 可以处理彩色图像,并且输出更紧凑的矢量文件。它最初设计用于处理高达千兆像素的历史蓝图扫描,同时也适用于复古游戏艺术的像素化处理。
FaceSwap 是一个基于深度学习的工具,能够在图片和视频中识别并交换人脸。它支持多种功能,包括人脸交换、面部表情转换等,适用于娱乐、影视制作、隐私保护等领域。项目提供了详细的安装和使用指南,支持多种操作系统(Windows、Linux、MacOS),并且需要现代GPU以获得最佳性能。FaceSwap 不仅是一个强大的工具,还为开发者和爱好者提供了学习和实验AI技术的机会。
Agently-Daily-News-Collector 是一个基于Agently AI应用开发框架的开源项目,能够根据用户输入的主题关键词,自动完成新闻汇总报告的结构设计、栏目组稿(含新闻检索、筛查、总结、栏目信息撰写)及报告MarkDown格式文件的输出全过程。该项目旨在通过AI代理自动生成高质量的新闻汇总报告,用户只需输入主题,AI代理将自动完成所有工作,并生成MarkDown格式的新闻汇总文件。
LoG是浙江大学3DV小组提出的一种新型3D场景高效渲染方法,旨在解决高质量、实时渲染数百万平方米大规模场景的挑战。它采用类似细节层次(LOD)的思想,通过树状结构存储高斯原始体,实现场景的高效渲染,适用于游戏开发、电影制作、城市规划和虚拟旅游等领域。
kimi-free-api 是一个提供 Kimi 大模型 API 的免费开源项目。Kimi 是一款国产智能大模型,支持中英文对话,具备200万字超长上下文输入能力,能够处理和分析大量文本信息。该项目允许用户通过 API 接入 Kimi,实现自部署,支持多轮对话、联网搜索、长文档解读、图像解析等功能。项目提供多种部署方式,包括 Docker、Docker-compose、Render、Vercel、Zeabur 等,并且与 OpenAI 的 API 完全兼容。
Windrecorder是一款通过记录屏幕上所有内容、实现记忆搜索的开源应用。它可以根据OCR文本或画面描述进行搜索,并提供活动统计、词云、时间轴等数据摘要。所有功能完全运行在本地,无需联网或上传数据,确保数据隐私。支持多语言(简体中文、English、日本语),并提供完善的webui界面。
ChatGPT-On-CS 是一个基于大语言模型(LLM)的集成客服系统,提供开箱即用的智能客服解决方案。它支持微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、拼多多、微博聊天、小红书专业号运营、小红书、知乎等多个平台接入,支持文本、语音和图片处理,通过插件访问操作系统和互联网等外部资源,并支持基于自有知识库定制企业AI应用。该项目可选择GPT3.5/GPT4.0/懒人百宝箱/FastGPT/DifyAI/通义千问/文心一言等平台大模型,适用于处理复杂或个性化的客户咨询。
IC-Light 是一款开源项目,用于操纵图像的照明效果。它提供了两类模型:文本条件重照明模型和背景条件模型。文本条件模型允许用户输入文本提示词(如“左侧光线”、“日光”)来生成具有特定光照方向和特征的图像。背景条件模型通过结合背景提示信息,可以对前景物体进行不同风格的光照变化。该工具利用HDR图像中光线传播的独立性,确保不同光源的混合效果与混合光源产生的效果一致。
AiEditor是一款面向AI的下一代富文本编辑器,基于Web Component开发,支持多种前端框架(如Vue、React、Angular等),适配PC和手机端,提供亮暗两种主题。它支持私有ApiKey对接大模型,允许用户自定义AI功能和扩展菜单。此外,AiEditor提供开源版本和更强大的商业版本,适用于各种文本编辑应用。
Layerdivider 是一个基于机器学习的开源工具,能够将单张图片转换为分层的PSD文件。它通过识别并分离图像中的颜色区域,构建出与原始图像色彩相近但更具组织性的图层。该工具支持在Google Colab上运行,也可以在本地安装使用。
RAG-GPT 是一个基于 Flask 框架的开源项目,利用大语言模型(LLM)和检索增强生成(RAG)技术,快速搭建智能客服系统。项目支持多种知识库集成,包括网站、独立URL和本地文件,提供灵活配置和快速部署的能力。用户可以通过 Docker 或源代码部署,支持多种 LLM 模型(如 OpenAI、ZhipuAI、DeepSeek、Moonshot 等),并内置了管理控制台和聊天机器人前端,便于管理和测试。
Qwen2.5是阿里巴巴开源的通义千问系列第二代AI模型,支持多种语言、代码和数学能力显著提升,上下文长度支持最高达到128K tokens。该模型提供了从0.5B到72B的不同规模版本,适用于各种应用场景。Qwen2.5在指令跟随、长文本生成、结构化数据理解等方面有显著改进,并且支持多达29种语言。
OpenCLAY是由影眸团队推出的3D生成AI模型,能够在几十秒内通过文本生成高质量的3D模型。该模型具有逼真的材质效果,支持多种输入类型和用户控制,适用于广泛的3D创作需求。
DynamiCrafter是由香港中文大学、腾讯AI实验室和北京大学共同开发的项目,利用视频扩散先验技术将静态图像转换为动画。该项目支持多种主题和风格,如风景、人物、动物、交通工具、雕塑等,并且能够生成高分辨率、动态连贯的视频。DynamiCrafter还提供了生成帧插值和循环视频生成的功能,适用于多种应用场景,如故事讲述视频生成等。
Translation Agent 是一个基于LLM(大语言模型)的翻译智能体项目,由吴恩达开源。该项目通过提示LLM将一种语言翻译成另一种语言,并让LLM反思翻译结果,提出改进建议,最终利用这些建议优化翻译。项目展示了如何使用反思工作流进行机器翻译,具有高度的可定制性,能够通过修改提示词来调整翻译风格、处理特定术语和方言等。尽管该项目尚未成熟,但在某些情况下,其翻译效果甚至优于商业产品。项目鼓励更多的讨论、实验、研究和开源贡献,旨在推动翻译技术的进一步发展。
Rembg 是一款开源工具,专注于快速且精确地从图片中移除背景。它支持多种输入输出格式,可以作为命令行工具、库或Docker容器使用。Rembg 提供了多种预训练模型,适用于不同的使用场景,如人像分割、动漫角色分割等。它还支持GPU加速,适用于大规模图像处理任务。
Raneto是一个免费、开源、简单的基于Markdown的Node.js知识库,旨在帮助用户整理知识文档和构建知识体系。它支持文件化内容管理、搜索功能、浏览器内Markdown编辑、登录系统保护编辑权限,具有轻量级和易用性等特点。
CompreFace是一个免费且开源的人脸识别系统,基于Docker应用,可以作为独立服务器或部署在云中。它提供了REST API,支持人脸识别、人脸验证、人脸检测、关键点检测、口罩检测、头部姿态检测、年龄和性别识别等功能。用户无需具备机器学习技能即可轻松集成和使用。CompreFace支持CPU和GPU,易于扩展,且具备角色管理系统,方便控制对服务的访问权限。
DeepFaceLive 是一款基于深度学习技术的实时面部交换软件,支持在直播或视频通话中进行低延迟的面部替换。它能够完美复刻五官、脸型、嘴型、表情、牙齿和发型,生成的图像真假难辨。该软件与著名的换脸软件 DeepFake 同源,提供了多种功能模块,包括面部交换、面部动画等,适用于多种场景。