香港大学黄超教授实验室开源的全自动个人AI助理,作为OpenAI Deep Research的开源替代方案,以不到1美元的超低价赋予用户强大的全自动化研究能力。该项目支持多种语言模型,无缝对接OpenAI、Anthropic等,具备卓越的性能和全自动化研究能力,自主搜索和分析互联网海量信息,精准处理复杂编程任务,自动解析PDF文件,并生成可视化报告。在全球通用AI助手的评测中高居第三,是低成本、高效的AI研究工具。
AI Financial Agent是一款专为投资研究设计的AI金融助手,旨在探索人工智能在金融投资领域的应用。它提供实时和历史股票数据,覆盖30年金融市场,并集成Chat功能,助力金融研究和股票分析。此外,它还支持一键部署,帮助用户轻松搭建个人金融分析平台。
GamingAgent 是一个专注于开发和测试AI Agent的项目,特别适用于经典游戏如超级玛丽和俄罗斯方块。它支持多种AI模型的接入和测试,能够评估和比较不同模型在游戏中的表现,并提供详细的测试基准和结果分析。此外,GamingAgent 还支持多种经典游戏,具备智能决策能力,能够根据不同模型的特点进行优化,适用于研究、开发、教育和演示等多种场景。
Proxy Lite是一个仅3B参数的轻量级、开源视觉语言模型(VLM),专为网络自动化设计。它通过观察、思考和工具调用三个步骤响应任务,并借助类似DeepSeek R1的执行反馈机制进行学习。项目提供了全面的VLM-浏览器交互框架,支持本地运行和云端调用两种模式,适用于企业级浏览器控制和广泛的自动化任务。
TiZero 是一个基于课程学习和自我对弈的多智能体足球游戏训练工具,适用于多智能体强化学习研究和足球游戏的策略优化。
Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它提供高精度的OCR技术,能够从复杂的文档中提取文本、表格和手写内容。此外,Rowfill 支持自动化工作流,用户可以轻松创建定制化的任务处理流程。平台还支持本地LLM(大型语言模型),在保护用户隐私的同时,享受AI的强大能力。
NobodyWho是为Godot游戏引擎设计的本地LLM交互插件,旨在让游戏中的角色和故事更加生动。该插件支持本地运行LLM,无需联网,保障用户隐私,并通过GPU加速显著提升推理速度。仅需两个节点即可启动,使用简单方便。
Agent Leaderboard是一个专门为AI Agent任务设计的语言模型排行榜,旨在精准评估不同语言模型在复杂场景下的工具使用能力。该项目涵盖了21个领域和390个API交互场景,采用Tool Selection Quality(TSQ)作为核心指标,量化工具选择质量,并评估了12种私有模型和5种开源模型。
ThinkDiff是一个创新的扩散模型,通过将视觉语言模型与大型语言模型解码器对齐,简化了训练过程,并显著提升了生成图像的质量和多模态上下文推理能力。该项目在CoBSAT基准测试中取得了显著的准确率提升,仅需5小时训练,且仅使用普通图像-文本对进行训练,无需复杂的多模态数据集。
node-DeepResearch 是一个深度研究型的AI搜索工具,能够持续搜索和阅读网页,直到找到答案或超出token预算。该项目由Jina AI开源实现,使用gemini进行LLM操作,brave作为搜索引擎,jina reader用于阅读网页。其实现原理是在一个循环中进行搜索、阅读和推理,直到找到答案。
AutoNode是一款神经图形自学习引擎,专注于认知GUI自动化。它集成了OCR和YOLO模型,能够自动化网页交互和数据提取过程。通过自定义站点图谱,AutoNode实现了程序化导航和交互,适用于多种平台和应用程序。
DeepScaleR-1.5B是一个基于DeepSeek-R1论文,使用GRPO持续训练的1.5B参数模型。其数学水平达到了与OpenAI-o1-preview相当的水平。由于模型较小且仅在专一领域训练,其他方面表现不佳。该项目主要用于数学相关任务,并作为小型模型的参考案例,同时研究GRPO训练方法的效果。
gym-aloha是一个专为ALOHA环境设计的Gymnasium工具包,旨在提高机器人学习和训练的效率和趣味性。它提供了丰富的功能,支持多种任务模式和观测数据,特别适合基于强化学习的机器人训练。
Video Dataset Scripts 是一个专为视频生成模型微调设计的小规模数据集构建工具。它提供了视频处理模块,帮助用户高效准备数据。该项目持续更新,未来计划加入年龄检测和场景分类功能,进一步扩展其应用范围。
Huggingface 整理并发布了关于 Deepseek R1 的所有重要内容和社区工作,包括评估分数复现、训练管道复现、合成数据生成流程、重要人物对 R1 模型的表态以及尝试复现 R1 的开源项目。该项目旨在为研究人员和开发者提供一个全面的资源,以便更好地理解和复现 Deepseek R1 模型。
DeepSeek LLM 是一个专注于长期主义的开源语言模型项目,旨在通过扩展和优化现有模型来提升自然语言处理的能力。该项目支持大规模语言模型的训练,并致力于在长期发展中保持模型的先进性和实用性。
Phantasm 是一个为AI工作流实时监控与指导提供‘人在回路’审批层的开源工具。它通过Web界面实时管理审批流程,支持多语言客户端,能够快速集成到任何AI框架中,帮助用户创建人类在环(HITL)工作流,并实时监控AI工作流的执行情况。
FastGPT是一个企业级知识库系统,支持RAG+LLM的私有化部署方案,具有高准确率的文档解析和快速的问答响应时间。它采用混合检索引擎,结合BM25关键词和ColBERT语义搜索技术,提供高效的信息检索能力。此外,FastGPT还提供了操作流设计,允许用户可视化构建数据处理链路,并支持多模型兼容,可以灵活切换本地或云端的AI大模型。
MHA2MLA项目通过实现DeepSeek的多头潜在注意力机制(MLA),旨在使任何基于Transformer的大型语言模型(LLM)的推理过程更加经济高效。该项目支持多种Transformer架构,结合FlashMLA框架,理论内存节省可达80%以上,显著降低GPU内存占用。
BodyShapeGPT是一个通过文字描述生成逼真3D人体模型的工具,利用LLM技术,仅需文本输入即可生成高精度的3D人体模型,支持SMPL-X模型,提供21,000条文本描述与模型参数数据,助力深度学习与优化,让虚拟角色定制化变得前所未有的简单。
Awesome-LRM-Safety是一个专注于收集大型推理模型(LRM)安全相关研究的精选资源库。它涵盖了热门模型如DeepSeek-R1和OpenAI o1的安全性,提供最新arXiv论文的自动更新,内容涉及安全风险、缓解策略和伦理问题。项目还涵盖多个关键领域,如自动驾驶、医疗保健和金融安全,为研究人员、开发者和教育机构提供全面的资源支持。
ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation,RAG)性能的框架。它基于最新的研究提供工具,帮助用户评估语言模型生成的文本,并提供有关RAG管道性能的深入洞见。
NSA是一种硬件适配且可原生训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。它通过动态分层稀疏策略、粗粒度词元压缩和细粒度词元选择等技术,显著加速推理过程并降低预训练成本。NSA在现代硬件上进行了优化,适用于通用基准测试、长上下文任务及基于指令的推理任务,表现出色。
FP4 训练是一种创新的深度学习训练方法,能够在保持与FP8和BF16相当精度的同时,扩展到13B大小的模型。与传统方法不同,FP4 训练在2.4B后不会崩溃,适用于大规模模型的训练,并能显著提高训练效率,减少计算资源消耗。
wdoc是一款强大的文档查询与总结工具,旨在一站式解决海量异构文档的检索与分析问题。它支持多种文件类型,结合LLM技术,能够高效处理数万份文档,并提供深度总结功能,帮助用户快速理解文档的核心逻辑与思路。
Kura 是一款基于语言模型的用户行为分析工具,旨在帮助用户深入理解用户行为,同时确保不泄露个人隐私。它通过递归聚类和自定义元数据提取等功能,满足个性化需求,并且是开源的,可以自由应用于各类数据。
Audiobook Creator 是一款将文字转换为有声书的工具,支持 EPUB、PDF、TXT 格式的书籍,能够一键转换成多角色配音的有声书,利用 NLP 和 LLM 技术智能识别角色并分配声音,提供单声道和多声道配音模式,支持多种输出格式,如 M4B、MP3 等,让阅读体验更加生动。
SuperGPQA是字节的豆包团队推出的评测项目,旨在为大语言模型(LLM)提供全面的研究生级学科评估框架。该项目覆盖285个研究生学科,通过创新的人机协作过滤机制确保题目高质量,并提供详细的模型性能对比,助力模型优化。
腾讯混元Turbo S是腾讯推出的新一代快思考模型,已在腾讯元宝上灰度上线。该模型在知识、数理、创作等多个领域表现出色,具有快速响应能力,同时大幅降低了部署成本,推动了大模型应用的普及。
OmniParser-v2.0是微软推出的Windows操作大模型,能够识别桌面和窗口元素,并与其他大语言模型集成,实现AI操作操作系统。该项目推动了AI Agent向完全自动使用电脑的方向发展,支持复杂的自动化任务,并完善自动化流程。