AI其他工具 | 第 3 页

Auto-Deep-Research开源项目 – 开源全自动个人AI助理

香港大学黄超教授实验室开源的全自动个人AI助理，作为OpenAI Deep Research的开源替代方案，以不到1美元的超低价赋予用户强大的全自动化研究能力。该项目支持多种语言模型，无缝对接OpenAI、Anthropic等，具备卓越的性能和全自动化研究能力，自主搜索和分析互联网海量信息，精准处理复杂编程任务，自动解析PDF文件，并生成可视化报告。在全球通用AI助手的评测中高居第三，是低成本、高效的AI研究工具。

0

低成本AI解决方案多种LLM支持开源AI深度研究助手

AI Financial Agent开源项目 – AI驱动的金融投资助手

AI Financial Agent是一款专为投资研究设计的AI金融助手，旨在探索人工智能在金融投资领域的应用。它提供实时和历史股票数据，覆盖30年金融市场，并集成Chat功能，助力金融研究和股票分析。此外，它还支持一键部署，帮助用户轻松搭建个人金融分析平台。

0

AI金融助手一键部署金融平台投资研究工具股票数据分析

GamingAgent开源项目 – 经典游戏AI测试与优化

GamingAgent 是一个专注于开发和测试AI Agent的项目，特别适用于经典游戏如超级玛丽和俄罗斯方块。它支持多种AI模型的接入和测试，能够评估和比较不同模型在游戏中的表现，并提供详细的测试基准和结果分析。此外，GamingAgent 还支持多种经典游戏，具备智能决策能力，能够根据不同模型的特点进行优化，适用于研究、开发、教育和演示等多种场景。

0

AI模型评估GamingAgent游戏AI测试平台

Proxy Lite开源项目 – 轻量级开源网络自动化助手

Proxy Lite是一个仅3B参数的轻量级、开源视觉语言模型(VLM)，专为网络自动化设计。它通过观察、思考和工具调用三个步骤响应任务，并借助类似DeepSeek R1的执行反馈机制进行学习。项目提供了全面的VLM-浏览器交互框架，支持本地运行和云端调用两种模式，适用于企业级浏览器控制和广泛的自动化任务。

0

VLM-浏览器交互框架企业级浏览器控制网络自动化助手轻量级开源视觉语言模型

FLAG开源项目 – 多智能体足球游戏训练

TiZero 是一个基于课程学习和自我对弈的多智能体足球游戏训练工具，适用于多智能体强化学习研究和足球游戏的策略优化。

0

多智能体足球游戏训练强化学习工具策略优化自我对弈训练

Rowfill开源项目 – 开源文档处理平台

Rowfill 是一个开源的文档处理平台，专为知识工作者设计。它提供高精度的OCR技术，能够从复杂的文档中提取文本、表格和手写内容。此外，Rowfill 支持自动化工作流，用户可以轻松创建定制化的任务处理流程。平台还支持本地LLM（大型语言模型），在保护用户隐私的同时，享受AI的强大能力。

0

开源文档处理平台数据隐私本地LLM自动化工作流

NobodyWho开源项目 – Godot本地LLM交互插件

NobodyWho是为Godot游戏引擎设计的本地LLM交互插件，旨在让游戏中的角色和故事更加生动。该插件支持本地运行LLM，无需联网，保障用户隐私，并通过GPU加速显著提升推理速度。仅需两个节点即可启动，使用简单方便。

0

Godot本地LLM交互插件游戏角色自然语言交互离线环境下的LLM应用隐私保护的对话系统

Agent Leaderboard开源项目 – AI工具使用能力排行榜

Agent Leaderboard是一个专门为AI Agent任务设计的语言模型排行榜，旨在精准评估不同语言模型在复杂场景下的工具使用能力。该项目涵盖了21个领域和390个API交互场景，采用Tool Selection Quality（TSQ）作为核心指标，量化工具选择质量，并评估了12种私有模型和5种开源模型。

0

AI Agent排行榜工具使用能力评估模型优化支持语言模型性能对比

ThinkDiff开源项目 – 多模态上下文推理的扩散模型

ThinkDiff是一个创新的扩散模型，通过将视觉语言模型与大型语言模型解码器对齐，简化了训练过程，并显著提升了生成图像的质量和多模态上下文推理能力。该项目在CoBSAT基准测试中取得了显著的准确率提升，仅需5小时训练，且仅使用普通图像-文本对进行训练，无需复杂的多模态数据集。

0

ThinkDiff图像生成多模态上下文推理开源项目

node-DeepResearch开源项目 – 深度研究的AI搜索工具

node-DeepResearch 是一个深度研究型的AI搜索工具，能够持续搜索和阅读网页，直到找到答案或超出token预算。该项目由Jina AI开源实现，使用gemini进行LLM操作，brave作为搜索引擎，jina reader用于阅读网页。其实现原理是在一个循环中进行搜索、阅读和推理，直到找到答案。

0

AI辅助研究node-DeepResearch开源项目深度研究自动化工具

AutoNode开源项目 – 认知GUI自动化引擎

AutoNode是一款神经图形自学习引擎，专注于认知GUI自动化。它集成了OCR和YOLO模型，能够自动化网页交互和数据提取过程。通过自定义站点图谱，AutoNode实现了程序化导航和交互，适用于多种平台和应用程序。

0

OCR集成YOLO模型数据提取引擎网页自动化工具

DeepScaleR-1.5B官网 – 数学专精的小型模型

DeepScaleR-1.5B是一个基于DeepSeek-R1论文，使用GRPO持续训练的1.5B参数模型。其数学水平达到了与OpenAI-o1-preview相当的水平。由于模型较小且仅在专一领域训练，其他方面表现不佳。该项目主要用于数学相关任务，并作为小型模型的参考案例，同时研究GRPO训练方法的效果。

0

DeepScaleR-1.5BGRPO训练方法小型模型数学模型

gym-aloha开源项目 – ALOHA环境的Gymnasium工具包

gym-aloha是一个专为ALOHA环境设计的Gymnasium工具包，旨在提高机器人学习和训练的效率和趣味性。它提供了丰富的功能，支持多种任务模式和观测数据，特别适合基于强化学习的机器人训练。

0

ALOHA环境Gymnasium工具包强化学习机器人训练

Video Dataset Scripts开源项目 – 视频模型微调数据集构建工具

Video Dataset Scripts 是一个专为视频生成模型微调设计的小规模数据集构建工具。它提供了视频处理模块，帮助用户高效准备数据。该项目持续更新，未来计划加入年龄检测和场景分类功能，进一步扩展其应用范围。

0

场景分类年龄检测数据集构建工具视频处理模块

Open R1官网 – 复现和整理 Deepseek R1 相关内容

Huggingface 整理并发布了关于 Deepseek R1 的所有重要内容和社区工作，包括评估分数复现、训练管道复现、合成数据生成流程、重要人物对 R1 模型的表态以及尝试复现 R1 的开源项目。该项目旨在为研究人员和开发者提供一个全面的资源，以便更好地理解和复现 Deepseek R1 模型。

0

DeepSeek R1复现合成数据生成开源项目训练管道复现

DeepSeek LLM官网 – 开源语言模型的扩展

DeepSeek LLM 是一个专注于长期主义的开源语言模型项目，旨在通过扩展和优化现有模型来提升自然语言处理的能力。该项目支持大规模语言模型的训练，并致力于在长期发展中保持模型的先进性和实用性。

0

大规模语言模型训练开源语言模型自然语言处理

Phantasm开源项目 – AI工作流实时监控与指导工具

Phantasm 是一个为AI工作流实时监控与指导提供‘人在回路’审批层的开源工具。它通过Web界面实时管理审批流程，支持多语言客户端，能够快速集成到任何AI框架中，帮助用户创建人类在环（HITL）工作流，并实时监控AI工作流的执行情况。

0

AI工作流监控工具人类在环工作流开源AI项目

FastGPT开源项目 – 企业级知识库系统

FastGPT是一个企业级知识库系统，支持RAG+LLM的私有化部署方案，具有高准确率的文档解析和快速的问答响应时间。它采用混合检索引擎，结合BM25关键词和ColBERT语义搜索技术，提供高效的信息检索能力。此外，FastGPT还提供了操作流设计，允许用户可视化构建数据处理链路，并支持多模型兼容，可以灵活切换本地或云端的AI大模型。

0

RAG+LLM私有化部署企业级知识库系统信息检索多模型兼容

MHA2MLA开源项目 – 高效经济的Transformer推理优化

MHA2MLA项目通过实现DeepSeek的多头潜在注意力机制（MLA），旨在使任何基于Transformer的大型语言模型（LLM）的推理过程更加经济高效。该项目支持多种Transformer架构，结合FlashMLA框架，理论内存节省可达80%以上，显著降低GPU内存占用。

0

DeepSeek技术GPU内存节省MHA2MLA开源项目Transformer推理优化

BodyShapeGPT开源项目 – 文字生成3D人体模型

BodyShapeGPT是一个通过文字描述生成逼真3D人体模型的工具，利用LLM技术，仅需文本输入即可生成高精度的3D人体模型，支持SMPL-X模型，提供21,000条文本描述与模型参数数据，助力深度学习与优化，让虚拟角色定制化变得前所未有的简单。

0

3D人体模型生成工具LLM技术深度学习与优化虚拟角色定制化

Awesome-LRM-Safety开源项目 – 大型推理模型安全研究资源库

Awesome-LRM-Safety是一个专注于收集大型推理模型（LRM）安全相关研究的精选资源库。它涵盖了热门模型如DeepSeek-R1和OpenAI o1的安全性，提供最新arXiv论文的自动更新，内容涉及安全风险、缓解策略和伦理问题。项目还涵盖多个关键领域，如自动驾驶、医疗保健和金融安全，为研究人员、开发者和教育机构提供全面的资源支持。

0

伦理问题医疗保健大型推理模型安全研究资源库安全风险

ragas开源项目 – 评估RAG性能的框架

ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation，RAG)性能的框架。它基于最新的研究提供工具，帮助用户评估语言模型生成的文本，并提供有关RAG管道性能的深入洞见。

0

RAG性能评估框架检索增强生成评估语言模型评估工具

NSA官网 – 硬件优化的稀疏注意力机制

NSA是一种硬件适配且可原生训练的稀疏注意力机制，专为超快速长上下文训练与推理设计。它通过动态分层稀疏策略、粗粒度词元压缩和细粒度词元选择等技术，显著加速推理过程并降低预训练成本。NSA在现代硬件上进行了优化，适用于通用基准测试、长上下文任务及基于指令的推理任务，表现出色。

0

硬件优化稀疏注意力机制超快速推理长上下文训练

FP4 训练官网 – 高效深度学习训练方法

FP4 训练是一种创新的深度学习训练方法，能够在保持与FP8和BF16相当精度的同时，扩展到13B大小的模型。与传统方法不同，FP4 训练在2.4B后不会崩溃，适用于大规模模型的训练，并能显著提高训练效率，减少计算资源消耗。