VisualThinker-R1-Zero是一个探索2B模型多模态“顿悟时刻”的项目,首次在2B非SFT模型上实现视觉推理的“顿悟时刻”。该项目显著增加了模型响应长度,大幅提升了推理能力,并观察到模型的自我反思行为,能够自动纠正错误。
Controllable-RAG-Agent是一款高级检索增强型Agent,专为解决复杂问题而设计。它通过确定性图谱实现复杂推理,有效避免AI幻觉,支持多步推理和自适应规划,并使用Ragas指标全面评估性能。
Nanotronics 是一家提供定制化解决方案的公司,专注于自动化光学检测、流程控制和安全领域。通过结合人工智能和机器人技术,Nanotronics 能够帮助企业在制造过程中识别污染和缺陷,并提升质量控制水平。其解决方案广泛应用于航空航天、电子等多个行业。
OmniSealBench 是一个为神经网络水印技术提供全面基准测试的平台。它集成了多种数据集和评估指标,支持快速生成和检测水印,旨在精准衡量水印性能并显著提高效率。
fast.cu是一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,展示了极致的GPU计算优化。
AKG (Auto Kernel Generator) 是一个用于深度学习网络中的算子优化器,能够自动融合具有特定模式的算子,从而提升深度学习模型的性能。
Fairscale是一个轻量级的开源库,专为分布式训练和大规模AI模型的优化设计。它旨在减少计算资源需求,提高训练效率,特别适用于大规模神经网络的训练。Fairscale通过多种分布式并行化技术、低内存占用优化、兼容PyTorch等特点,帮助开发者在普通设备上高效训练亿级参数的模型。
Detectron2是一个开源的PyTorch视觉库,专注于目标检测和实例分割等任务。它在训练速度上较传统方案提升了40%,并在COCO数据集上实现了57.9%的mAP指标。该库支持分布式训练优化、实时推理加速和可扩展架构,适用于多种应用场景。
spRAG是一个专为非结构化数据设计的高性能检索增强生成(RAG)框架,特别擅长处理复杂查询,如财务报告和法律文件。它通过高效的检索和生成机制,帮助用户从大量非结构化数据中快速提取有用信息,提升数据分析和信息检索的效率。
Drag3D项目是将DragGAN的思想扩展到GET3D的尝试,以实现纹理网格的交互式生成和拖动编辑。项目提供了一个图形用户界面(GUI)进行演示,并在Github上提供了源代码和安装说明。支持在Ubuntu和Windows操作系统上使用,推荐在Windows上使用。用户可以通过GUI进行3D模型的生成、编辑以及材质和mesh的修改。
Liger-Kernel 是一款专为大型语言模型(LLM)训练设计的高效 Triton 内核。它通过一行代码即可集成到现有训练流程中,显著提升模型性能,降低内存使用,并支持更长上下文长度、更大批量大小和庞大词汇量。
这是一个开源项目,旨在Windows操作系统上本地运行基于TensorRT-LLM的推理,从而替代OpenAI的云服务。它提供了加速推理的解决方案,并与使用OpenAI API构建的项目兼容,使得用户可以在本地环境中高效地进行自然语言处理任务。
Kiss3DGen是一个将图像扩散模型重新用于3D资产生成的创新项目。它支持通过文本或图像输入生成3D资产,并提供本地和云端的Gradio演示,方便用户快速体验。项目还开源了高效的模型权重和代码,助力研究和应用开发。
Augment Code是一个AI驱动的平台,旨在通过理解开发者的代码库,提供实时协助、建议和协作工具,从而提高编码效率、决策能力,并促进开发团队之间的知识共享。
CodeGeeX是一款基于大规模预训练的代码生成模型,具有130亿参数,支持Python、Java、C++、Go等十几种主流编程语言。它不仅能够根据自然语言描述生成代码,还能优化、补全代码,提供智能注释,提高开发效率。CodeGeeX结合深度学习技术,理解自然语言描述,生成高质量代码,适用于软件开发、算法研究和代码教学等场景。
transformers.js-chrome 是一个浏览器插件,旨在直接在浏览器中运行大语言模型。它支持本地小模型(1-7B规模)及DeepSeek-R1的蒸馏版本,无需WASM方案,用户只需安装插件即可使用。对于性能足够强的电脑,还可以加载并运行更大的模型。
Wan2GP是一款基于Wan2.1的阿里巴巴开源和先进的大规模视频生成模型,专为显存有限的GPU用户设计,让普通GPU也能高效运行视频生成任务。它优化了内存消耗,适配几乎所有消费级显卡,支持多种生成任务,包括文本转视频、图片转视频等,是显存有限用户的理想选择。
Learn Agentic AI 是一个通过CrewAI、LangChain、LangGraph和知识图谱等技术,帮助用户从基础到高级学习Agent技术的综合平台。它提供了丰富的课程资源和实践项目,涵盖AI-201和AI-202课程,旨在帮助开发者快速上手Agent开发,并通过对比分析多种Agent框架,帮助开发者选择最适合的工具。
Mellon是一个专注于Diffusers的机器学习工具接口项目,采用客户端/服务器架构,支持拖拽式节点工作流,用户可以轻松搭建和运行Stable Diffusion等模型。项目采用模块化设计,支持自定义节点扩展,并基于ReactFlow和MUI构建了友好的Web界面。
这是一个专注于深度学习项目和教程的仓库,提供了各种深度学习技术的实际实现和深入见解。通过全面的教程、神经网络的实际实现、真实场景中的深度学习应用示例、易于理解的代码片段和笔记本,以及支持TensorFlow和PyTorch等流行深度学习框架,帮助用户深入学习和应用深度学习技术。
Awesome-GraphRAG 是一个精心策划的资源列表,专注于基于图的检索增强生成(GraphRAG)技术,特别适用于定制化的大型语言模型。该项目汇集了各种相关资源,包括研究论文、工具和教程,旨在为研究者和开发者提供便捷的访问途径。项目内容经过精心组织和分类,确保用户能够快速找到所需信息,并且定期更新以保持与最新研究和工具同步。
Flux 是字节跳动开源的 MoE 架构优化技术「COMET」,旨在通过细粒度的计算与通信重叠来提高混合专家模型(MoE)的执行效率。该技术显著提升了模型训练的速度,降低了计算成本,并已在万卡集群中实战应用,累计节省了数百万 GPU 小时。Flux 完美兼容 DeepSeek DualPipe 方案,支持多种硬件环境稳定运行,且无需框架重构,即插即用。
Self-hosted AI Starter Kit 是一个开源的本地AI环境快速搭建模板,由n8n精心策划,旨在为用户提供创建安全、自托管AI工作流所需的基础工具。该项目强调数据隐私和安全,适合用于研究、开发、教学等多种场景。
Unstract是一个无需编码的LLM平台,旨在帮助用户快速启动API和ETL管道,以结构化和处理非结构化文档。该平台通过机器到机器自动化,简化了数据处理和文档转换的流程,适用于各种需要自动化和数据处理的场景。
LeadsArmy.io是一个基于人工智能的潜在客户生成平台,专为企业、营销人员和SaaS公司设计,旨在帮助他们找到高质量的潜在客户。用户可以通过输入关键词或从列表中选择来搜索潜在客户,系统将把可操作的潜在客户信息直接推送到他们的CRM系统中。
DialoGPT是微软推出的一款基于GPT-2的对话生成模型,专门设计用于生成更加自然和流畅的人类对话。它在大规模对话数据集上进行训练,能够理解和生成日常对话内容,具有一定的情感理解能力,适用于聊天机器人、虚拟助手等领域。该模型支持多轮对话,能够根据上下文生成相关回答,并可通过微调适应不同领域的对话需求。此外,DialoGPT还支持多平台部署,使其在不同应用场景中具有广泛的应用潜力。
unstructured-inference 是一个开源的非结构化数据预处理工具,旨在提供高效、灵活的数据处理解决方案。它支持多种数据格式的解析和转换,能够处理大规模的非结构化数据,并易于集成到现有的数据处理流程中。通过丰富的API接口,用户可以方便地进行数据清洗、提取关键信息,并将非结构化数据转换为结构化数据,从而提升数据质量和机器学习模型的输入数据质量。
Patho-Bench 是一个 Python 库,专门用于对病理学领域的基础模型进行基准测试。它提供了标准化的训练-测试分割,支持多种评估框架,并自动化 GPU 负载均衡,以支持大规模实验。
AI-Infra-Guard 是腾讯混元安全团队旗下朱雀实验室推出的大模型基础设施评估工具,旨在全面检测AI系统潜在安全风险。该工具支持检测30+主流AI组件,内置200+安全漏洞知识库,涵盖实验室自主发现的NVIDIA Triton、PyTorch、ComfyUI、Ray等核心组件漏洞。
dkernel是一个高性能的定制化CUDA内核库,专注于优化大规模语言模型的稀疏注意力计算。它通过使用OpenAI Triton编写的内核,显著提升了计算效率并降低了资源消耗,特别适用于需要高性能计算的场景。