AI开发框架 | 第 45 页

Chenyme-AAVT是一个全自动视频翻译项目，能够将视频中的音频识别并翻译成多种语言。项目利用Whisper进行声音识别，使用AI大模型翻译字幕，最后自动合并字幕与视频，生成翻译后的视频。支持多种语言翻译，适用于教育、娱乐、商务等多个场景。

0

AI大模型字幕翻译Whisper声音识别全自动视频翻译工具多语言视频翻译

OpenVino For SmartCity开源项目 – 智能城市AI解决方案

OpenVino For SmartCity是由INCLUIT开发的项目，利用OpenVino工具包为智能城市应用提供优化的AI推理解决方案。该项目专为智能城市场景设计，支持多种AI模型，实现实时数据处理和分析，具有可扩展和模块化的架构，适用于多种城市监控和管理任务。

0

OpenVino工具包城市监控AI模型实时数据处理智能城市AI解决方案

Lightning IR开源项目 – 基于PyTorch Lightning的信息检索库

Lightning IR 是一个基于 PyTorch Lightning 的库，专门用于微调和运行基于 transformer 的语言模型进行信息检索任务。它提供了完整的解决方案，支持多种信息检索任务和数据集，简化了模型训练和推理过程，同时易于扩展和定制。

0

Pytorch LightningTransformer模型信息检索开源项目

OWL开源项目 – 多智能体协作的优化框架

OWL（Optimized Workforce Learning）是一个基于 CAMEL-AI 框架构建的多智能体协作工具，旨在通过多代理交互完成复杂的现实任务，并在 GAIA 基准测试中排名第一。它支持多模态处理、浏览器操作、文件解析、代码执行等功能，并包含丰富的工具包，满足各类特定任务需求。

0

AI优化框架代码执行多智能体协作文档解析

NeuralScaleID开源项目 – 探索数据流形维度下的神经扩展规律

NeuralScaleID是一个基于约翰霍普金斯大学U. Sharma和J. Kaplan（2020年）研究的项目，旨在从数据流形维度的角度探索神经扩展规律。该项目深入研究了模型性能与数据复杂性之间的关系，并实现了研究论文中的理论发现，支持实验结果的复现。

0

实验复现工具数据流形维度分析机器学习研究工具神经扩展规律研究

OpenPose Training开源项目 – OpenPose模型训练工具

OpenPose Training是由CMU-Perceptual-Computing-Lab开发的训练代码，旨在简化OpenPose框架的训练过程。该项目支持从零开始训练OpenPose模型，提供数据准备和增强工具，并包含详细的文档和训练流程示例。它兼容多种人体姿态估计数据集，允许用户灵活调整模型架构和超参数。

0

OpenPose模型训练人体姿态估计数据增强模型架构调整

OpenSparseLLMs/Linearization开源项目 – 提升LLM计算效率的创新项目

OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目，旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架，实现了LLMs的高效线性化，并提供了完整的训练与评估流程，助力模型优化。

0

大型语言模型优化计算效率提升训练与评估流程优化门控循环结构

FBGEMM开源项目 – 高效低精度矩阵计算库

FBGEMM（Facebook 通用矩阵乘法）是一个专为服务器端推理优化的低精度、高性能矩阵乘法和卷积库。它支持在CPU上进行高效计算，旨在通过低精度算术减少内存占用并提高速度，特别适用于大规模矩阵计算和深度学习推理任务。

0

CPU计算优化低精度算术深度学习推理优化高效矩阵计算库

Autodidact开源项目 – 自动微分的教学实现

Autodidact是Matthew Johnson开发的一个教学性质的Autograd实现，旨在帮助用户理解和掌握自动微分的核心概念。该项目代码简洁明了，适合学习用途，能够处理基本的数学操作和函数，并深入揭示Autograd的内部工作原理。

0

Autograd实现开源项目教学工具自动微分

TextMind开源项目 – 开源文本理解框架

TextMind是一个专为文本理解任务设计的开源框架，为开发者提供构建高效语言分析系统的工具。它通过深度网络提取文本含义，支持实体与关系的精准识别，提供分布式计算加速工具，优化文本分析预测速度，并兼容分类与抽取任务。

0

信息提取开源文本理解框架文本分析语言研究

All Relevant Feature Selection (ARFS) – 模型无关的特征选择工具

ARFS是一个模型无关的特征选择工具，旨在识别所有与预测相关的特征，包括冗余预测变量。它通过三种不同的方法（Leshy、BoostAGroota和GrootCV）实现特征选择，并与scikit-learn兼容，推荐使用lightGBM模型进行优化。

0

lightGBM模型scikit-learn兼容数据降维模型无关的特征选择工具

HAL开源项目 – 致敬HAL和费曼物理学的项目

HAL是一个致敬HAL和费曼物理学讲义的GitHub项目，可能包含与物理学相关的代码或资源，适用于教育或学习目的，也可能涉及与HAL相关的技术或AI内容。

0

AI相关项目开发HAL技术探索物理学学习资源

ComfyUI-MultiGPU开源项目 – 多GPU支持工具

ComfyUI-MultiGPU是一个实验性工具，旨在在单一ComfyUI工作流中支持多个GPU的使用。它通过非传统方式对内存管理进行补丁，提供模型加载新节点，并允许用户指定每个模型使用的GPU，从而优化资源利用和计算效率。

0

ComfyUI-MultiGPUGPU优化多GPU支持工具开源项目

ir-sim开源项目 – 轻量级机器人模拟器

ir-sim是一个基于Python的轻量级机器人模拟器，旨在为机器人导航、控制和学习算法的开发提供一个简单易用的框架。它支持多种机器人动力学模型，提供丰富的传感器和行为模块，并允许通过YAML文件快速配置场景，无需复杂编码。

0

PythonYAML配置学习算法导航算法

brpc_faiss_server开源项目 – 高性能矢量检索框架

brpc_faiss_server 是一个基于 brpc 和 faiss 的矢量检索框架，结合了 brpc 的高性能通信能力和 faiss 的大规模矢量搜索功能，适用于构建高效的矢量搜索引擎和实时推荐系统。

0

BRPCFAISS大规模矢量搜索实时推荐系统

GIDD开源项目 – 提升离散扩散模型训练效果

GIDD（广义插值离散扩散）是一个新颖的框架，专门用于训练离散扩散模型。它通过结合掩码和均匀噪声来提升生成样本的质量，并具备自我纠错功能，能够自动修正生成过程中的错误。此外，GIDD提供了多种预训练模型，用户可以快速上手并进行生成任务。

0

生成样本离散扩散模型自我纠错预训练模型

Keras’ fork with several new functionalities – 增强版Keras

这是一个基于Keras的分支版本，增加了多项新功能，例如Caffe2Keras转换器和多模态层，旨在扩展Keras的能力，支持更复杂的机器学习任务。

0

Caffe2Keras转换器Keras分支增强版Keras多模态层

SecretFlow开源项目 – 隐私计算框架

SecretFlow（隐语）是一款由蚂蚁开源的企业级隐私计算框架，采用Python语言编写，支持多种主流隐私计算技术，如安全多方计算、联邦学习、差分隐私和同态加密，适用于医疗、金融等领域的数据合作场景。它通过抽象隐私计算技术为密文设备和明文设备，将数据分析和机器学习工作流表示为计算图，支持自动协议转换和插件式集成，提供灵活的编程接口，便于开发者在不了解底层技术细节的情况下进行隐私计算。

0

同态加密安全多方计算差分隐私联邦学习

Super-Rag开源项目 – 高性能RAG管道集成工具

Super-Rag是一个高性能的RAG管道，专为AI应用设计，集成了摘要生成、检索/重排和代码解释器功能，通过简单的API提供服务。它支持多种文档格式和向量数据库，提供可定制的文档分割/分块功能，并允许使用多种模型（包括专有和开源模型）进行数据编码。此外，Super-Rag还内置了代码解释器模式，用于处理复杂的问答场景，并通过唯一ID进行会话管理以实现缓存。

0

代码解释器会话管理向量数据库摘要生成

TransMLA开源项目 – 将GQA转化为更强大的MLA方法

TransMLA是一种将GQA（如LLaMA-3和Qwen-2.5）转化为更强大的MLA（多头潜在注意力）的方法，旨在复制R1能力并探索MoE、MTP、混合精度量化和训练/推理加速等先进技术。

0

多头潜在注意力推理加速模型优化混合精度量化

Florence-VL开源项目 – 微软开源的多模态图像理解模型

Florence-VL是微软开源的多模态模型，具备强大的图像理解能力，能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制，支持多层次、多方面的视觉特征捕获和融合，超越了传统的CLIP式视觉Transformer模型。

0

图片搜索图表理解多模态图像理解模型幻觉检测

Label Studio开源项目 – 开源多类型数据标注工具

Label Studio是一款功能强大的开源数据标注工具，支持文本、图像、音频、视频等多种数据类型。它结合主动学习策略，能够高效辅助人工完成标注任务，并提供可视化界面，易于使用。此外，Label Studio支持团队协作，提高大规模数据集的标注速度，并可与深度学习模型集成，实现智能标注和自动化数据处理。

0

主动学习策略团队协作开源数据标注工具深度学习模型集成

face_verification_experiment开源项目 – 轻量级人脸验证模型

face_verification_experiment 是一个基于轻量级卷积神经网络（CNN）的深度学习项目，专为高效的人脸表示和验证任务设计。该项目通过优化网络架构，在保持高精度的同时显著降低了计算复杂度，适用于实时应用场景。其核心目标是为安全系统、移动应用和监控系统等提供准确且高效的人脸识别解决方案。

0

人脸识别安全系统实时应用深度学习

Dappier官网 – 内容变现与AI集成平台

Dappier是一个市场平台，允许出版商通过向AI公司授权内容以及嵌入AI小部件来变现其内容。用户可以通过创建账户来连接数据、微调AI模型，并通过AI开发者合作和嵌入AI聊天机器人等方式实现内容变现。

0

AI模型微调AI聊天机器人嵌入AI集成内容变现平台

Tiny-Universe开源项目 – 从零手搓大模型的全链路指南

Tiny-Universe 是一个从原理出发、以“白盒”为导向、围绕大模型全链路的“手搓”大模型指南。该项目旨在帮助有传统深度学习基础的读者从底层原理出发，纯手搓搭建一个清晰、可用的大模型系统，包括大模型本身、RAG 框架、Agent 系统及大模型评估体系。最近新增了从零开始pretrain Llama3部分。

0

Agent系统RAG框架从零pretrain Llama3大模型构建指南

tsai开源项目 – 深度学习时序处理库

tsai是一个基于Pytorch和fastai的深度学习库，专注于时间序列和序列数据的处理。它提供了多种先进的深度学习模型和预训练工具，支持时间序列分类、回归、预测等任务。tsai易于集成和使用，适合快速实验和模型调优，是处理时间序列数据的理想选择。

0

序列数据建模时间序列分类时间序列回归时间序列预测

icml16-dml开源项目 – 音乐音频深度流形学习

icml16-dml 是一个专注于音乐音频深度流形学习的项目，通过深度学习方法进行音乐音频的流形学习，支持音乐音频特征提取与表示学习，提供高效的音频数据处理和模型训练工具，适用于音乐信息检索和音频分析任务。

0

模型训练工具音乐信息检索音乐音频深度流形学习音乐音频特征提取

ncnn-android-depth_anything开源项目 – Android深度感知应用示例

ncnn-android-depth_anything是一个基于ncnn库和OpenCV的Android应用示例，旨在利用大规模未标记数据进行深度感知。该项目展示了如何释放深度学习的潜力，并支持动态输入形状的模型，适用于各种深度感知场景。