translate 是一个基于 PyTorch 的机器翻译库,提供了 Seq2Seq 模型。它依赖于 Facebook 的 FairSeq 库,并支持将模型导出到 Caffe2,以满足生产环境中使用 C++ 的需求。该库适用于多种语言的翻译任务,并提供了高效的训练和推理功能。
GPyConform 扩展了 GPyTorch,实现了高斯过程回归的置信预测,提供可靠的预测区间,并支持对称和非对称预测方法,以确保结果的有效性。
该项目通过一系列算术问题测试GPT-NeoX-20B的算术能力,旨在深入分析模型在算术任务中的表现,包括准确性和错误模式,并提供详细的分析报告。该项目开源,可通过GitHub Gist访问。
GAOKAO-bench 是一个评估框架,使用中国高考题目作为数据集,用于评估大语言模型的表现。该框架包含多种题型,旨在全面测试模型的语言理解能力和逻辑推理能力。
distributed-faiss是一个用于构建和服务多节点分布式Faiss索引的库。它支持在大规模数据集上进行高效的索引和搜索,具有可扩展的架构以处理海量数据,并与现有的Faiss功能集成。该库针对高性能计算环境进行了优化,适用于高可用性和容错环境。
graph2vec 是由 Matt Ranger 开发的一个高效工具,专注于快速生成 node2vec 嵌入。它经过优化,具有出色的性能和效率,能够处理大规模图数据,并且可以轻松集成到现有的机器学习流程中。
ViT Prisma是一个专门用于Vision Transformers(ViTs)的机制解释库,旨在帮助用户深入理解ViT模型的内部工作机制。它提供了一系列工具和方法,用于分析Transformer层和注意力机制,支持模型决策的可视化,并促进视觉任务中特征重要性的探索。
Sparrow 是一种数据高效的视频大语言模型(Video-LLM),通过文本到图像的增强技术来提高视频指令的多样性,显著提升了训练效率。
wasmVision是一个基于WebAssembly的计算机视觉处理引擎,提供高性能的视觉处理能力。它能够捕获摄像头、视频文件或流媒体的画面,并通过WebAssembly进行处理后输出。该项目支持使用Go、Rust、C语言开发处理器模块,并内置了多个现成的处理器,如人脸检测、图像模糊、神经风格迁移等,适用于多种视觉处理场景。
XAIstream是一个专为实时AI处理设计的开源框架,为开发者提供构建低延迟智能系统的工具。它支持流式数据的高效处理,适用于动态场景下的模型应用。通过流式计算、推理加速、动态调度、硬件适配和接口支持等功能,XAIstream能够帮助开发者在各种实时场景中高效地应用AI技术。
maçarico是一个基于PyTorch实现的命令式学习搜索框架,专为需要搜索和优化的机器学习任务设计。它支持命令式编程风格,提供灵活的搜索策略配置,易于扩展和自定义,并具有高效的学习和推理过程。
HAL Harness是一个标准化的AI Agent评估框架与排行榜,旨在让AI代理的评估变得简单、可重复且高效。它支持多种基准测试,涵盖SWE-bench、USACO等,并可以在本地或云端运行,支持并行化以大幅提升效率。此外,HAL Harness无缝集成Weave,自动记录和跟踪成本与使用情况,为AI代理的评估和比较提供了全面的解决方案。
xfeatSLAM 是一个集成了轻量级深度特征提取架构 XFeat 与 ORB-SLAM3 流程的实时同步定位与地图构建系统。该系统旨在为计算资源有限的移动机器人和嵌入式系统提供高效的 SLAM 解决方案,特别适用于需要实时处理和资源受限的环境。
Vlogger是一个通用的人工智能系统,专门用于生成用户描述的一分钟级视频博客(vlog)。该系统利用大型语言模型(LLM)作为导演,将vlog的长视频生成任务分解为四个关键阶段,从而突破现有视频生成方法的瓶颈,提升生成效率和质量。
VideoPainter是由腾讯ARC团队推出的支持任意长度视频修复与编辑的工具。它突破了传统技术的限制,支持通过文字指令实现视频编辑,可以添加、删除、更改、替换视频中的对象。该工具采用即插即用的双分支框架,一个分支通过背景上下文编码器处理背景信息,确保背景自然;另一个分支专注生成前景物体,实现背景与前景的协调统一。此外,VideoPainter还提供了超过39万条带精确分割掩码的视频数据,助力大规模训练与评估。
kan-gpt是一个结合Kolmogorov-Arnold Networks(KAN)特性的GPT模型,使用PyTorch框架实现。该项目在Tiny Shakespeare数据集上进行了训练和测试,表现优于传统的MLP-GPT模型。作为一个开源项目,kan-gpt不仅便于社区贡献和进一步研究,还为自然语言处理任务提供了新的解决方案。
xLSTM-7B是一种扩展的LSTM模型架构,通过引入Exponential Gating和Matrix Memory等技术,克服了传统LSTM的局限性。相较于Transformer架构,xLSTM-7B在推理速度和参数效率方面表现出显著优势,适用于多种序列数据处理任务。
HZPROC是一个专为Torch设计的数据增强工具箱,支持仿射变换等多种数据增强技术。它易于集成到现有的Torch流程中,性能高效且优化,能够显著提升模型的泛化能力。
vitsGPT是一个基于大规模语言模型的语义意识增强文本到语音合成工具,提供PyTorch实现。它支持多种语义评估指标和数据集,旨在提升文本到语音合成的语义准确性和自然度。
Simple Language Open Protocol (SLOP) 是一个简化的 AI API 通信协议,旨在通过标准的 HTTP 请求和 JSON 数据格式,提供一个统一的方式与任何 AI 服务进行交互。它支持多Agent协作、实时流式交互,并遵循开放、简单和灵活的原则。
该项目是一个关于大型语言模型和基础模型在时态数据(时间序列、时空和事件数据)以及AIOps领域应用的资源列表。它提供了全面的资源,包括论文、代码、数据集等,系统地总结了该领域的最新进展,为研究者和开发者提供了可靠的参考。
fastai v2时序处理包是专为fastai v2框架设计的时序数据处理工具,支持多种时序数据格式,提供高效的预处理功能,并集成了多种时序模型的训练和评估方法。该工具易于扩展和自定义,能够无缝集成到现有的fastai v2工作流中,适用于时序数据的预处理、模型训练、评估、可视化及自定义流程。
MM-EUREKA是一个探索视觉‘顿悟时刻’的多模态强化学习项目,首次将基于规则的强化学习应用于多模态推理,实现文本和视觉信息的高效融合。该项目无需监督微调,通过规则化训练显著提升模型推理能力,并开源完整训练流程,包括代码、模型和数据,助力研究者快速上手。
StableSR 是一个创新的超分辨率放大项目,专注于为模糊画面生成精致细节。该项目已集成到web-ui中,使用方便,且对低显存进行了优化,支持在小于12GB显存的环境中进行4K图像放大。官方演示效果令人惊叹,对模糊照片的修复效果几乎完美。
DistilBERT是一款基于BERT的轻量级Transformer模型,通过蒸馏技术显著减少了模型的大小和计算复杂度,同时保持了高性能。它特别适用于资源有限的环境,如移动设备或嵌入式系统,能够在文本分类、命名实体识别和问答系统等任务中表现出色。
ChatGLM.cpp是ChatGLM-6B的C++实现版,专为在macBook等设备上运行而设计。它通过C++实现优化了性能和资源使用,使其能够在资源受限的环境中高效运行,同时保持与ChatGLM-6B模型的兼容性。
HAL是一个专注于训练超人类AI来玩《任天堂明星大乱斗》的项目。它通过使用优势加权回归来增强AI的决策能力,并支持多GPU训练以加速模型优化。HAL提供了一个完整的工作流程,从数据处理到模型评估,帮助开发者高效地训练和评估AI模型。
XAIreason是一个专为推理任务设计的开源框架,为开发者提供构建逻辑性强AI系统的工具,通过增强模型的推理能力,支持复杂问题的高效求解。它具备推理引擎、知识整合、模型优化、可视化支持和兼容性强等特点,适用于决策系统、知识问答和透明AI等多种场景。
DiffSinger是一个开源的歌声合成项目,由FastSpeech2的作者开发。该项目提供了完整的代码、数据集以及预训练模型,旨在推动歌声合成技术的研究和应用。DiffSinger基于FastSpeech2的歌声合成技术,支持高质量的歌声生成,并且易于扩展和定制,适合用于学术研究、音乐制作和自定义应用开发。
EmoNet是一款结合文本、语音和图像的多模态情感分析模型,能够识别人类的情绪状态。它通过深度学习技术,将语音语调、面部表情和文本内容综合分析,提升情感识别的准确率。EmoNet适用于客户服务、心理健康监测、人机交互等场景,让AI更具人性化。