AI开发框架 | 第 31 页

VideoRefer是浙江大学和阿里达摩学院联合推出的视频对象感知与推理技术，基于增强视频大型语言模型（Video LLMs）的空间-时间理解能力，能够对视频中的任意对象进行细粒度的感知和推理。项目包含三个核心组件：VideoRefer-700K数据集、VideoRefer模型和VideoRefer-Bench基准，分别用于提供大规模高质量的对象级视频指令数据、支持单帧和多帧输入的对象编码器，以及评估模型在视频指代任务中的性能。

0

Video LLMs对象编码器视频对象感知视频指代任务

FramePainter开源项目 – 交互式图像编辑工具

FramePainter 是由哈工大联合华为推出的交互式图像编辑工具，基于视频扩散模型和直观的草图控制技术，允许用户通过绘制、点击或拖动操作来指示编辑意图，实现对图像的精确修改。其核心优势在于高效的训练机制和强大的泛化能力，即使在少量样本的情况下，也能生成高质量的编辑结果。

0

交互式图像编辑工具低训练成本草图控制技术视频扩散模型

VGen开源项目 – 开源视频生成大模型

VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库，集成了多种先进的视频生成模型，包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频，并支持多种视频生成工具，如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性，适用于多种视频生成任务。

0

加速开源视频生成模型文本到视频生成联合训练

SkyReels-V1开源项目 – 首个开源的以人为本的视频生成模型

SkyReels-V1是昆仑万维开源的中国首个面向AI短剧创作的视频生成模型，基于千万级高质量影视数据进行微调，支持文生视频和图生视频。该模型在生成逼真的面部表情动画、准确反映人类情绪、电影质感等方面表现优异，具有自研的数据清洗与标注管线，支持精准的动作识别与场景理解。

0

AI短剧创作多GPU并行推理开源视频生成模型电影级视频生成

InspireMusic开源项目 – 基于多模态大模型的音乐生成工具

InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术，基于多模态大模型技术，支持通过简单的文字描述或音频提示快速生成多种风格的音乐。核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder，能实现文本生成音乐、音乐续写等功能。支持多种曲风、情感表达和复杂的音乐结构控制，提供高质量的音频输出和长音频生成，并为研究者和开发者提供丰富的音乐生成模型训练和调优工具。

0

多模态大模型开源项目音乐生成工具音频生成

Step-Video-T2V开源项目 – 高质量文本到视频生成模型

Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型，拥有300亿参数，能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE)，显著提高了训练和推理效率。配备双语文本编码器，支持中英文提示输入，并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

0

双语文本输入多GPU部署开源视频模型文本到视频生成

VLM-R1开源项目 – 视觉语言领域的R1方法迁移

VLM-R1是一个开源项目，成功将DeepSeek的R1方法从纯文本领域迁移到视觉语言领域。该项目基于Qwen2.5-VL，对比了R1和传统的SFT方法，展示了其在多模态图像识别领域的突破性进展。VLM-R1在各种复杂场景下保持稳定的高性能，并展示了卓越的泛化能力，能够适应多种场景和任务而无需专门训练。项目在GitHub上线后迅速获得广泛关注，并登上平台热门趋势榜。

0

Hugging FaceLoRA微调多模态图像识别开源项目

OpenAI Agents SDK开源项目 – 简化AI智能体开发的Python框架

OpenAI Agents SDK 是一个轻量级但功能强大的框架，专为构建多智能体工作流程而设计。它通过简化单智能体及多智能体系统的开发流程，帮助开发者快速构建AI智能体应用。该框架支持智能体配置、交接、防护机制、追踪和可视化功能，适用于客户支持自动化、多步骤研究、内容生成、代码审查和销售潜在客户挖掘等实际应用。

0

AI智能体开发Python框架代码审查多智能体协作

Supabase开源项目 – 开源的Firebase替代品

Supabase 是一个开源的 Firebase 替代品，提供类似于 Firebase 的开发者体验。它基于企业级开源工具构建，主要功能包括托管的 Postgres 数据库、身份验证和授权、自动生成的 API、函数、文件存储以及人工智能和向量/嵌入式工具组等。Supabase 不仅支持托管平台，还可以自托管和本地开发。它的架构由多个开源组件组成，如 Postgres、Realtime、PostgREST、GoTrue 等，旨在为开发者提供灵活且强大的后端解决方案。

0

人工智能集成开源Firebase替代品托管Postgres数据库自动生成API

Diffusion Policy开源项目 – 基于扩散模型的视动策略学习

Diffusion Policy 是一种利用扩散模型进行视动策略学习的方法，探索了扩散模型在策略学习中的应用。它提出了一种新的训练算法和架构，并在模拟和真实世界实验任务中表现出色，能够实现更高的成功率和更快速、更有效的学习。项目提供了完整的代码、实验数据和Google Colab笔记本，支持用户快速上手和复现实验结果。

0

Google Colab开源项目扩散模型视动策略学习

Automa开源项目 – 浏览器自动化扩展

Automa 是一个浏览器扩展程序，通过连接模块自动执行各种任务。它可以帮助用户自动登录网站、执行购物流程、抓取网站数据、定时提交表单等。用户还可以在 Automa 市场分享和下载工作流，甚至使用 Automa Chrome 扩展生成器生成独立的 Chrome 扩展。

0

Chrome扩展生成定时任务数据抓取浏览器自动化

ATProto Feed Generator开源项目 – 自定义社交媒体内容生成工具

ATProto Feed Generator 是一个入门工具包，旨在简化自定义算法的开发和部署。它允许开发者创建自定义的内容算法，如热门内容、社区提要和主题提要，并通过 AT Protocol 提供给用户。该项目提供了一个基本框架，使开发者能够轻松构建和部署个性化的社交媒体内容生成器。

0

ATProto Feed Generator内容算法开发框架自定义社交媒体内容生成工具

NostalgiaForInfinity开源项目 – Freqtrade加密货币交易策略

NostalgiaForInfinity 是一个专为 Freqtrade 加密货币交易机器人设计的交易策略。它使用多种技术指标，包括相对强度指数（RSI）、布林带和移动平均线，来确定市场趋势和潜在的买入/卖出点。该策略已在多种市场环境中证明了其有效性，并因其稳健的性能和利润潜力而受到交易者的认可。项目支持通过 Docker 或本地运行，并提供详细的配置和测试指南。

0

Docker部署Freqtrade交易机器人加密货币交易策略回测功能

Mesa开源项目 – 基于代理的建模Python库

Mesa 是一款开源的 Python 库，专门用于基于代理的建模（Agent-based Modeling, ABM），旨在模拟复杂系统并探索涌现行为。它提供了模块化的核心组件（如空间网格和代理调度器），支持基于浏览器的可视化，内置分析工具，并附带丰富的示例模型库。Mesa 的目标是成为 Python 领域的 NetLogo、Repast 或 MASON 的替代品，适用于从学术研究到实际应用的多种场景。

0

Python库基于代理的建模复杂系统模拟开源项目

Infinigen开源项目 – 生成无限逼真3D世界的开源工具

Infinigen 是一款开创性的开源工具，利用程序化生成技术生成逼真无限的3D世界。它结合了计算机视觉、计算机图形和生成式人工智能的先进技术，创造出身临其境的真实环境。项目支持生成室内场景和自然场景，并提供丰富的文档和教程，帮助用户快速上手。

0

生成式人工智能生成无限逼真3D世界的开源工具程序化生成技术计算机图形

Cog开源项目 – 简化机器学习模型容器化

Cog 是一个开源工具，旨在简化机器学习模型的容器化过程，使其能够轻松部署到生产环境中。通过简单的配置文件，Cog 自动生成符合最佳实践的 Docker 镜像，解决了 CUDA/cuDNN/PyTorch/Tensorflow/Python 的兼容性问题，并提供了云存储集成。用户可以将打包后的模型部署到自己的基础设施或 Replicate 平台上。

0

CUDA兼容性处理Docker镜像生成云存储集成开源工具

ComfyUI开源项目 – 强大的扩散模型图形界面

ComfyUI 是一款功能强大的扩散模型图形用户界面 (GUI) 和后端，提供了一种直观的界面，用于设计和执行复杂的工作流。它被广泛认可为稳定扩散建模的领先 GUI，支持图像、视频和音频转换。ComfyUI 通过节点/图/流程图的方式，允许用户无需编写代码即可创建复杂的稳定扩散工作流。它支持多种模型和优化，适用于 Windows、Linux 和 macOS 平台。

0

图像生成扩散模型图形界面稳定扩散工作流视频生成

crewAI-examples开源项目 – AI协作自动化示例集

crewAI-examples 是一个展示如何使用 crewAI 框架的示例集合，涵盖了从基础到高级的多种自动化任务场景。crewAI 框架旨在通过角色扮演的 AI 代理协作，简化复杂任务的自动化流程。该仓库提供了丰富的示例，包括旅行计划、股票分析、营销策略、职位匹配等，帮助用户快速上手并理解如何应用 crewAI 框架。

0

AI协作自动化crewAI框架开源项目自动化任务

sample-app-aoai-chatGPT开源项目 – 基于Azure OpenAI的聊天应用示例

该项目是一个基于Azure OpenAI的简单网络聊天应用示例，使用Python开发，支持与Azure OpenAI的集成，特别是Azure OpenAI On Your Data功能。用户可以通过聊天窗口输入问题或提示，聊天机器人会根据Azure OpenAI的模型生成响应。项目提供了多种部署方式，包括本地开发、Azure App Service部署、Azure CLI部署等，并支持多种数据源的集成，如Azure AI Search、Azure CosmosDB、Elasticsearch等。

0

Azure App Service部署Azure CLI部署Azure Functions函数调用Azure OpenAI集成

NeuralOperator开源项目 – PyTorch库，用于学习神经算子

NeuralOperator 是一个 PyTorch 库，专注于在无限维度中学习神经算子。它提供了傅里叶神经算子和张量化神经算子的实现，能够学习函数空间之间的映射，并且具有分辨率不变性，使得训练后的算子可以应用于任何分辨率的数据。该库支持多种高效的计算方法，如傅里叶变换和张量分解，以提高模型的计算效率。

0

PyTorch库傅里叶变换张量分解神经算子

OpenSPG开源项目 – 蚂蚁集团开发的知识图谱引擎

OpenSPG 是由蚂蚁集团联合开放知识图谱社区 OpenKG 开发的知识图谱引擎，基于 SPG 框架。SPG 框架是蚂蚁集团在金融场景中构建和应用领域知识图谱的经验总结。OpenSPG 提供了 SPG-Schema 语义建模、SPG-Builder 知识构建、SPG-Reasoner 逻辑规则推理、可编程框架 KNext 和云适配层 Cloudext 等核心能力，支持领域知识图谱的构建、推理和扩展。

0

OpenSPGSPG框架知识图谱引擎知识构建

Proof of SQL开源项目 – 高性能零知识SQL证明器

Proof of SQL 是由 Space and Time 团队开发的高性能零知识（ZK）证明器，通过密码学保证 SQL 查询在未篡改的数据上准确计算。它专注于在线延迟，同时证明整个链历史的计算，比现有的 zkVM 和协处理器快一个数量级。该协议能够在不到一秒的时间内使用单个 GPU 对 100k 行表格执行分析查询，并支持链上和链下验证，显著降低链上验证的 gas 费用。

0

GPU加速SQL查询链上数据验证高性能零知识SQL证明器

open-instruct开源项目 – 开源指令微调语言模型

open-instruct 是一个开源项目，专注于指令微调和后训练大型语言模型。它提供了最新的技术和指令数据集，支持直接偏好优化（DPO）和可验证奖励强化学习（RLVR），并在各种基准上评估模型性能。该项目为研究人员和开发者提供了一个平台，用于探索和改进指令微调技术。

0

LoRA微调QLoRA微调可验证奖励强化学习指令微调语言模型

Map of GitHub开源项目 – GitHub项目可视化地图

Map of GitHub 是一个交互式地图，展示了超过400,000个GitHub项目。通过计算项目之间的Jaccard相似性、使用Leiden聚类算法进行分组，并使用ngraph.forcelayout库进行布局，最终通过Maplibre呈现地图。用户可以通过该地图探索各种技术领域中的项目连接，发现特定主题或关键字相关的项目集合，并可视化GitHub生态系统的发展和演变。

0

GitHub项目可视化开源项目地图技术领域探索生态系统演变

moondream开源项目 – 轻量级视觉语言模型

Moondream是一款高效的开源视觉语言模型，结合了强大的图像理解能力和轻量级特征。它设计灵活且易于使用，能够在多种设备和平台上运行。项目提供两个模型变体：Moondream 2B（2亿参数，适用于通用图像理解任务）和Moondream 0.5B（500万参数，专为边缘设备优化）。

0

Node.js客户端库Python客户端库图像理解视觉语言模型

Keep开源项目 – 开源 AIOps 和告警管理平台

Keep 是一个开源的 AIOps 和告警管理平台，旨在通过提供统一的告警视图、消除重复告警、丰富告警内容、过滤和关联告警等功能，帮助企业提高运维效率、减少告警数量并改善整体 IT 运营。它支持双向集成、工作流自动化和仪表板，利用 AI 驱动的关联和汇总功能，增强问题识别和解决能力。

0

AI驱动告警关联告警管理工具工作流自动化开源AIOps平台

Amphion开源项目 – 音频、音乐和语音生成工具包

Amphion 是一个开源工具包，旨在支持音频、音乐和语音生成领域的可重复研究，并帮助初级研究人员和工程师进入该领域。它实现了多种先进的模型架构，包括基于扩散、变压器、VAE 和流的模型，并提供生成的音频的综合客观评估。Amphion 的核心目标是为研究任何输入到音频的转换提供一个平台，支持多种生成任务，如文本到语音（TTS）、歌唱语音合成（SVS）、语音转换（VC）、口音转换（AC）、歌唱语音转换（SVC）、文本到音频（TTA）等。此外，Amphion 还提供了多种声码器和评估指标，确保生成任务的一致性和高质量。

0

开源项目文本到语音文本到音频歌唱语音合成

Activepieces开源项目 – 开源自动化工具

Activepieces 是一款开源的自动化工具，旨在通过其模块化架构和类型安全的分片框架，帮助用户轻松构建定制的工作流。它支持热重载功能，并内置对 AI 服务的支持，如 OpenAI 和 Discord。Activepieces 已被广泛用于自动化各种任务，如数据收集、任务执行和数据分析。其核心是一个基于 TypeScript 的框架，允许用户编写自己的自动化集成，并与多种服务提供商无缝集成。

0

AI服务集成TypeScript框架开源自动化工具自定义工作流

Depth Anything V2开源项目 – 单目深度估计的强大基础模型

Depth Anything V2 是一种单目深度估计的强大基础模型，显著改善了细节刻画和鲁棒性。它提供更快的推理速度、更少的参数和更高的深度精度，适用于各种单目深度估计应用。项目提供了四种不同规模的预训练模型，支持图像和视频的深度估计，并且可以通过 Transformers 和 Apple Core ML 进行便捷的使用。

0

Apple Core MLTransformers单目深度估计开源项目

TRL开源项目 – 强化学习训练基础模型

TRL 是一个用于增强训练基础模型的 Python 库，支持监督微调、近端策略优化和直接偏好优化等技术。它与 Hugging Face Transformers 生态系统紧密集成，支持多种模型架构和模态，并支持分布式训练。TRL 提供了多种训练器，如 SFTTrainer、GRPOTrainer、DPOTrainer 和 RewardTrainer，方便用户进行模型微调。此外，TRL 还支持通过 Hugging Face Accelerate 进行高效扩展，并集成了 Hugging Face PEFT 和 Unsloth 来优化训练过程。

0

Hugging Face集成Python库强化学习训练模型微调