IPTV-API 是一个可高度自定义的IPTV接口更新项目,支持自定义频道菜单,自动获取直播源,测速验效后生成可用的结果,实现秒播级体验。项目支持多种获取源方式,包括本地源、组播源、酒店源、订阅源和关键字搜索,并提供多种运行方式,如工作流、命令行、GUI软件和Docker。每天定时更新,确保用户获取最新、最稳定的直播源。
FlipSketch 是一个基于文本引导的草图动画生成工具,能够将静态草图转换为动态动画。通过微调的文本到视频(T2V)模型,FlipSketch 可以根据输入的草图和文本描述生成相应的动画。其核心机制是通过将输入草图的参考噪声与模型的注意力机制相结合,实现从静态图像到动态视频的转换。项目提供了详细的安装和使用指南,并支持在 Hugging Face 平台上进行在线演示。
shadPS4是一个早期的PlayStation 4模拟器,支持Windows、Linux和macOS平台,使用C++编写。该项目目前处于开发阶段,虽然尚未完全成熟,但已经能够成功运行多款PS4游戏,如《血源诅咒》、《黑暗之魂重制版》和《荒野大镖客》等。项目团队致力于定期更新,逐步提升模拟器的兼容性和性能。
Anime4K 是一套开源的高质量实时动漫视频超分辨率和去噪算法,支持多种编程语言实现。它专为原生1080p动漫视频优化,能够在4K屏幕上实时提升画质,避免传统超分技术带来的不可逆损害和存储空间浪费。项目提供多种着色器模块,支持自定义处理,适用于Windows、Linux和macOS平台,无需高端GPU即可流畅运行。
Handsontable 是一个基于 JavaScript 的数据表格组件,具有类似电子表格的外观和操作体验。它支持 JavaScript、TypeScript 以及 React、Angular、Vue 等主流框架,适用于构建数据密集型内部应用程序。用户可以通过它输入、编辑、验证和处理来自各种来源的数据。常见的应用场景包括资源规划软件(ERP)、库存管理系统、数字平台和数据建模应用。
TecoGAN是一个用于视频超分辨率的生成对抗网络(GAN),专注于生成具有时序一致性的高分辨率视频。该项目由慕尼黑工业大学的研究团队开发,旨在通过自监督学习提升视频生成中的时间连贯性。项目提供了推理、训练和下载训练数据的代码,并包含预训练模型。TecoGAN的生成能力在细节持久性和时空一致性方面表现出色,能够生成长时间保持细节的视频序列。
APISR是一个专注于动漫图像和视频的超分辨率模型,旨在通过提升画质分辨率来恢复和增强低质量、低分辨率的动漫图像和视频源。该项目特别针对真实场景中的各种退化问题,提供了多种超分辨率模型和权重,支持2x、4x等不同放大倍数的处理。APISR还提供了在线演示、本地Gradio推理、数据集处理、训练等功能,适用于动漫爱好者和研究人员。
Chinese-Tiny-LLM(CT-LLM)是一个拥有20亿参数的大语言模型,主要在12000亿中文语料库上进行预训练,其中包括8000亿中文、3000亿英文和1000亿代码的混合数据。该模型通过中文数据进行预训练和微调,显著提升了中文处理能力,并通过对齐技术进一步优化。CT-LLM在CHC-Bench中文任务中表现出色,同时在英文任务中也表现出良好的适应性。项目开源了训练过程、数据处理方法以及大规模中文预训练语料库(MAP-CC),并引入了中文难例基准(CHC-Bench),旨在推动更包容和适应性强的语言模型研究。
HumanGaussian是一个高效的3D人体生成框架,通过Gaussian Splatting技术生成高质量、细节丰富的3D人体模型。该框架结合了显式的人体结构引导和梯度规范化优化,解决了现有方法在细节不足或训练时间过长的问题。其核心创新包括结构感知的SDS(Score Distillation Sampling)和退火负提示引导,能够在多样化的场景下生成逼真的3D人体模型。
Large World Model (LWM) 是一个通用的大环境多模态自回归模型,专注于处理长视频和书籍数据。它使用RingAttention技术进行训练,能够处理多达100万token的上下文,支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集,解决了现有语言模型在处理复杂、长任务时的不足,尤其在文本图像生成、文本视频生成等任务中表现出色。
DepthFM 是一个先进、多功能且快速的单目深度估计模型,能够在单次推理步骤中生成高质量的深度图。该模型展示了从基础图像合成扩散模型(Stable Diffusion v2-1)到流匹配模型的成功迁移,直接从输入图像映射到深度图。DepthFM 不仅在常规深度估计任务中表现出色,还在深度修复和深度条件合成等下游任务中展现了领先的能力。
DUSt3R 是一种全新的3D立体重建方法,仅需两张图片即可完成3D建模,无需相机校准或视点姿态等先验信息。该项目提供了从图像对到3D点云的完整流程,支持多种分辨率和模型配置,适用于多种场景的3D重建任务。
TeToS (Text-to-Speech Operating System) 是一个开源项目,提供了一个统一的接口来集成和使用多个文本到语音(TTS)服务提供商。它简化了开发者在不同TTS服务之间的集成和使用过程,使得开发者可以轻松地切换或同时使用多种不同的文本到语音服务。支持多种TTS服务提供商,如Edge-TTS、OpenAI TTS、Azure TTS、Google TTS、Volcengine TTS、Baidu TTS、Minimax TTS、迅飞 TTS和Fish Audio等。
Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统,专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本,能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件,如肖像和参考姿势图像,并且提供了不同分辨率的模型权重。
VTracer 是一个开源软件,用于将位图(如 JPG 和 PNG)转换为矢量图形(SVG)。它能够处理高分辨率扫描图像和低分辨率像素艺术,适用于历史文化资料数字化、设计工作和游戏开发等场景。与 Potrace 相比,VTracer 可以处理彩色图像,并且输出更紧凑的矢量文件。它最初设计用于处理高达千兆像素的历史蓝图扫描,同时也适用于复古游戏艺术的像素化处理。
Agently-Daily-News-Collector 是一个基于Agently AI应用开发框架的开源项目,能够根据用户输入的主题关键词,自动完成新闻汇总报告的结构设计、栏目组稿(含新闻检索、筛查、总结、栏目信息撰写)及报告MarkDown格式文件的输出全过程。该项目旨在通过AI代理自动生成高质量的新闻汇总报告,用户只需输入主题,AI代理将自动完成所有工作,并生成MarkDown格式的新闻汇总文件。
AiEditor是一款面向AI的下一代富文本编辑器,基于Web Component开发,支持多种前端框架(如Vue、React、Angular等),适配PC和手机端,提供亮暗两种主题。它支持私有ApiKey对接大模型,允许用户自定义AI功能和扩展菜单。此外,AiEditor提供开源版本和更强大的商业版本,适用于各种文本编辑应用。
Layerdivider 是一个基于机器学习的开源工具,能够将单张图片转换为分层的PSD文件。它通过识别并分离图像中的颜色区域,构建出与原始图像色彩相近但更具组织性的图层。该工具支持在Google Colab上运行,也可以在本地安装使用。
RAG-GPT 是一个基于 Flask 框架的开源项目,利用大语言模型(LLM)和检索增强生成(RAG)技术,快速搭建智能客服系统。项目支持多种知识库集成,包括网站、独立URL和本地文件,提供灵活配置和快速部署的能力。用户可以通过 Docker 或源代码部署,支持多种 LLM 模型(如 OpenAI、ZhipuAI、DeepSeek、Moonshot 等),并内置了管理控制台和聊天机器人前端,便于管理和测试。
Qwen2.5是阿里巴巴开源的通义千问系列第二代AI模型,支持多种语言、代码和数学能力显著提升,上下文长度支持最高达到128K tokens。该模型提供了从0.5B到72B的不同规模版本,适用于各种应用场景。Qwen2.5在指令跟随、长文本生成、结构化数据理解等方面有显著改进,并且支持多达29种语言。
Suno-API是一个基于Python和FastAPI的非官方API,主要用于生成音乐和歌词。它内置了自动维护和保持令牌有效的功能,用户无需担心令牌过期问题。该项目代码简洁,易于维护和二次开发,适合快速扩展和集成。
FollowYourPose是由腾讯混元团队联合中山大学、香港科技大学推出的图生视频模型。该模型通过输入一张人物图片和一段动作视频,能够生成人物跟随动作的视频,视频长度可达10秒。项目基于Stable Diffusion模型,通过两阶段训练方案,利用图像-姿态对和无姿态视频数据集,生成可编辑和姿态可控的人物视频。项目代码和模型已公开,支持在本地和云端运行。
MetaVoice-1B 是一个拥有1.2亿参数的文本转语音(TTS)模型,专注于生成情感丰富、节奏自然和音调准确的英语语音。它支持零样本克隆美国与英国口音,并支持跨语言的声线定制。模型基于100K小时的语音数据进行训练,支持任意长度文本的合成,并提供了丰富的API和Web UI供用户使用。项目采用Apache 2.0开源许可,用户可以无限制地使用。
ChatALL是一个开源项目,允许用户同时与多个大型语言模型(LLM)进行对话。通过向多个AI机器人发送提示,用户可以发现最佳结果。该项目旨在提供更好的体验,用户只需下载、安装并提问即可。支持多种语言和操作系统,包括Windows、macOS和Linux。所有聊天记录和设置都保存在本地,确保用户隐私安全。
Stable Fast 3D是由Stability AI推出的开源模型,专注于从单张图片快速生成高质量的3D网格模型。该模型在0.5秒内即可将图片转换为详细的3D资产,包括UV展开的网格、材质参数和减少光照烘焙的反照率颜色。Stable Fast 3D基于TripoSR,但引入了多项新技术,确保生成的网格无伪影,并且纹理和材质参数易于集成到游戏引擎中。
Resyncer是一个Swift库,旨在在同步环境中无缝集成异步API。它允许开发者调用异步代码(无论是使用回调还是Swift的async/await模式),并阻塞调用线程,直到异步任务完成。这确保在继续同步工作流之前可以获得结果,非常适合需要顺序执行但涉及异步任务的场景。
GenWarp是一种从单张图像生成不同视角新图像的方法。它能够在保留原始图像重要信息和细节的同时,生成视角变化后的图像,确保信息不会丢失或扭曲。该项目提供了模型的推理代码,用户可以通过输入图像和相机姿态生成新视角图像。
MIMO是阿里开源的可控角色视频生成模型,支持通过一张图片生成虚拟角色动画视频。该项目不仅能够根据用户提供的简单输入(如角色、动作和场景)合成逼真的角色视频,还能在统一框架中实现任意角色的高级可扩展性、对新颖3D动作的通用性以及对交互式现实场景的适用性。项目地址、论文和在线演示均已公开,用户可以通过GitHub获取代码并尝试使用。
Video-subtitle-remover (VSR) 是一款基于AI技术的视频硬字幕去除软件,支持无损分辨率、自定义字幕位置、全视频自动去除所有文本等功能。该软件通过超强AI算法模型,对去除字幕文本的区域进行填充,支持多选图片批量去除水印文本,适用于Windows、macOS和Linux系统。
InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的音乐。核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,能实现文本生成音乐、音乐续写等功能。支持多种曲风、情感表达和复杂的音乐结构控制,提供高质量的音频输出和长音频生成,并为研究者和开发者提供丰富的音乐生成模型训练和调优工具。