Chenyme-AAVT是一个全自动视频翻译项目,能够将视频中的音频识别并翻译成多种语言。项目利用Whisper进行声音识别,使用AI大模型翻译字幕,最后自动合并字幕与视频,生成翻译后的视频。支持多种语言翻译,适用于教育、娱乐、商务等多个场景。
OpenVino For SmartCity是由INCLUIT开发的项目,利用OpenVino工具包为智能城市应用提供优化的AI推理解决方案。该项目专为智能城市场景设计,支持多种AI模型,实现实时数据处理和分析,具有可扩展和模块化的架构,适用于多种城市监控和管理任务。
Lightning IR 是一个基于 PyTorch Lightning 的库,专门用于微调和运行基于 transformer 的语言模型进行信息检索任务。它提供了完整的解决方案,支持多种信息检索任务和数据集,简化了模型训练和推理过程,同时易于扩展和定制。
OWL(Optimized Workforce Learning)是一个基于 CAMEL-AI 框架构建的多智能体协作工具,旨在通过多代理交互完成复杂的现实任务,并在 GAIA 基准测试中排名第一。它支持多模态处理、浏览器操作、文件解析、代码执行等功能,并包含丰富的工具包,满足各类特定任务需求。
NeuralScaleID是一个基于约翰霍普金斯大学U. Sharma和J. Kaplan(2020年)研究的项目,旨在从数据流形维度的角度探索神经扩展规律。该项目深入研究了模型性能与数据复杂性之间的关系,并实现了研究论文中的理论发现,支持实验结果的复现。
OpenPose Training是由CMU-Perceptual-Computing-Lab开发的训练代码,旨在简化OpenPose框架的训练过程。该项目支持从零开始训练OpenPose模型,提供数据准备和增强工具,并包含详细的文档和训练流程示例。它兼容多种人体姿态估计数据集,允许用户灵活调整模型架构和超参数。
OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目,旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架,实现了LLMs的高效线性化,并提供了完整的训练与评估流程,助力模型优化。
FBGEMM(Facebook 通用矩阵乘法)是一个专为服务器端推理优化的低精度、高性能矩阵乘法和卷积库。它支持在CPU上进行高效计算,旨在通过低精度算术减少内存占用并提高速度,特别适用于大规模矩阵计算和深度学习推理任务。
Autodidact是Matthew Johnson开发的一个教学性质的Autograd实现,旨在帮助用户理解和掌握自动微分的核心概念。该项目代码简洁明了,适合学习用途,能够处理基本的数学操作和函数,并深入揭示Autograd的内部工作原理。
TextMind是一个专为文本理解任务设计的开源框架,为开发者提供构建高效语言分析系统的工具。它通过深度网络提取文本含义,支持实体与关系的精准识别,提供分布式计算加速工具,优化文本分析预测速度,并兼容分类与抽取任务。
ARFS是一个模型无关的特征选择工具,旨在识别所有与预测相关的特征,包括冗余预测变量。它通过三种不同的方法(Leshy、BoostAGroota和GrootCV)实现特征选择,并与scikit-learn兼容,推荐使用lightGBM模型进行优化。
HAL是一个致敬HAL和费曼物理学讲义的GitHub项目,可能包含与物理学相关的代码或资源,适用于教育或学习目的,也可能涉及与HAL相关的技术或AI内容。
ComfyUI-MultiGPU是一个实验性工具,旨在在单一ComfyUI工作流中支持多个GPU的使用。它通过非传统方式对内存管理进行补丁,提供模型加载新节点,并允许用户指定每个模型使用的GPU,从而优化资源利用和计算效率。
ir-sim是一个基于Python的轻量级机器人模拟器,旨在为机器人导航、控制和学习算法的开发提供一个简单易用的框架。它支持多种机器人动力学模型,提供丰富的传感器和行为模块,并允许通过YAML文件快速配置场景,无需复杂编码。
brpc_faiss_server 是一个基于 brpc 和 faiss 的矢量检索框架,结合了 brpc 的高性能通信能力和 faiss 的大规模矢量搜索功能,适用于构建高效的矢量搜索引擎和实时推荐系统。
GIDD(广义插值离散扩散)是一个新颖的框架,专门用于训练离散扩散模型。它通过结合掩码和均匀噪声来提升生成样本的质量,并具备自我纠错功能,能够自动修正生成过程中的错误。此外,GIDD提供了多种预训练模型,用户可以快速上手并进行生成任务。
这是一个基于Keras的分支版本,增加了多项新功能,例如Caffe2Keras转换器和多模态层,旨在扩展Keras的能力,支持更复杂的机器学习任务。
SecretFlow(隐语)是一款由蚂蚁开源的企业级隐私计算框架,采用Python语言编写,支持多种主流隐私计算技术,如安全多方计算、联邦学习、差分隐私和同态加密,适用于医疗、金融等领域的数据合作场景。它通过抽象隐私计算技术为密文设备和明文设备,将数据分析和机器学习工作流表示为计算图,支持自动协议转换和插件式集成,提供灵活的编程接口,便于开发者在不了解底层技术细节的情况下进行隐私计算。
Super-Rag是一个高性能的RAG管道,专为AI应用设计,集成了摘要生成、检索/重排和代码解释器功能,通过简单的API提供服务。它支持多种文档格式和向量数据库,提供可定制的文档分割/分块功能,并允许使用多种模型(包括专有和开源模型)进行数据编码。此外,Super-Rag还内置了代码解释器模式,用于处理复杂的问答场景,并通过唯一ID进行会话管理以实现缓存。
TransMLA是一种将GQA(如LLaMA-3和Qwen-2.5)转化为更强大的MLA(多头潜在注意力)的方法,旨在复制R1能力并探索MoE、MTP、混合精度量化和训练/推理加速等先进技术。
Florence-VL是微软开源的多模态模型,具备强大的图像理解能力,能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制,支持多层次、多方面的视觉特征捕获和融合,超越了传统的CLIP式视觉Transformer模型。
Label Studio是一款功能强大的开源数据标注工具,支持文本、图像、音频、视频等多种数据类型。它结合主动学习策略,能够高效辅助人工完成标注任务,并提供可视化界面,易于使用。此外,Label Studio支持团队协作,提高大规模数据集的标注速度,并可与深度学习模型集成,实现智能标注和自动化数据处理。
face_verification_experiment 是一个基于轻量级卷积神经网络(CNN)的深度学习项目,专为高效的人脸表示和验证任务设计。该项目通过优化网络架构,在保持高精度的同时显著降低了计算复杂度,适用于实时应用场景。其核心目标是为安全系统、移动应用和监控系统等提供准确且高效的人脸识别解决方案。
Dappier是一个市场平台,允许出版商通过向AI公司授权内容以及嵌入AI小部件来变现其内容。用户可以通过创建账户来连接数据、微调AI模型,并通过AI开发者合作和嵌入AI聊天机器人等方式实现内容变现。
Tiny-Universe 是一个从原理出发、以“白盒”为导向、围绕大模型全链路的“手搓”大模型指南。该项目旨在帮助有传统深度学习基础的读者从底层原理出发,纯手搓搭建一个清晰、可用的大模型系统,包括大模型本身、RAG 框架、Agent 系统及大模型评估体系。最近新增了从零开始pretrain Llama3部分。
tsai是一个基于Pytorch和fastai的深度学习库,专注于时间序列和序列数据的处理。它提供了多种先进的深度学习模型和预训练工具,支持时间序列分类、回归、预测等任务。tsai易于集成和使用,适合快速实验和模型调优,是处理时间序列数据的理想选择。
icml16-dml 是一个专注于音乐音频深度流形学习的项目,通过深度学习方法进行音乐音频的流形学习,支持音乐音频特征提取与表示学习,提供高效的音频数据处理和模型训练工具,适用于音乐信息检索和音频分析任务。
ncnn-android-depth_anything是一个基于ncnn库和OpenCV的Android应用示例,旨在利用大规模未标记数据进行深度感知。该项目展示了如何释放深度学习的潜力,并支持动态输入形状的模型,适用于各种深度感知场景。
腾讯自动驾驶仿真系统 TAD Sim 是一款为自动驾驶系统研发和验证提供支持的跨平台分布式仿真测试工具。它集成了车辆动力学模型和专业渲染引擎,能够实现感知、决策、控制算法的闭环仿真验证,有效降低研发成本,缩短研发周期。
PlateRecognition是一个高精度车牌识别系统,支持12种车牌类型的检测与识别。该系统集成了yolov5、yolov7、yolov8等深度学习模型,识别准确率高达99.5%,适用于多种场景下的车牌识别需求。