World-Simulator是一个一站式多模态生成模型资源库,旨在帮助AI研究者探索2D、视频、3D和4D生成的前沿进展。它系统性整合了不同维度的生成技术,并提供丰富的资源,包括论文、代码和数据集,助力研究者快速上手。项目持续更新,紧跟学术界最新动态。
PocketManus 是一个开源的 Manus 替代项目,旨在提供类似的功能和体验。该项目采用轻量级设计,易于集成到现有项目中,并且具有高度可定制的特点。此外,PocketManus 支持跨平台使用,适用于多种开发和测试场景,也可用于教育和学习目的。
OpenManus是一个开源项目,旨在让开发者能够轻松访问、修改和扩展Manus的功能。它无需邀请码,打破AI封闭生态,提供快速上手的体验。项目集成了多种成熟技术,包括大型语言模型(LLM)、AI Agent、计算机/浏览器使用、图像/视频理解、爬虫等,通过产品思维和工程集成,提供高效、智能的解决方案。
AI实操Excel是一个通过Excel实现人工智能基础算法的练习工具,旨在让用户亲手体验和学习AI的核心操作,如Softmax、LeakyReLU等。该项目适合初学者和爱好者,无需编程基础,通过Excel即可学习和练习AI算法。项目还计划增加更多高级AI模型和算法,如自注意力机制、多层感知器和生成对抗网络。
Boxo是一套用于构建IPFS应用程序和实现的Go语言参考库。它提供了高质量的组件,支持与公共和私有IPFS网络的交互,代码经过实战检验,并且在社区中广泛使用和理解。
R1-V是一个开源视觉语言模型(VLM)项目,旨在通过强化学习和可验证奖励(RLVR)在极低成本(不到3美元)和短时间内(30分钟)实现超强泛化能力。该项目通过高效的训练方法和开源资源,显著提升了模型的性能,特别是在超出分布(OOD)测试中,2B模型在100个训练步骤后超越了72B模型的表现。
Sparse-VideoGen 是一个无需训练的视频生成加速框架,通过利用时空稀疏性来加速视频扩散模型,显著提升视频生成速度。该框架能够动态识别稀疏模式,适配多种视频生成模型,并支持 HunyuanVideo 和 CogVideoX v1.5,在单卡 H100 上表现出显著的加速效果。
MindNet是一个专为思维网络任务设计的开源框架,旨在为开发者提供构建智能关系模型的工具。它支持复杂思维结构的分析与生成,优化知识表示效率,适用于多种思维网络任务。
MMR1是多模态推理领域的前沿项目,通过极少量数据实现顶尖性能。该项目仅使用6k公开数据进行训练,达到了开源7B多模态模型的SOTA性能,并且在6小时内完成高效训练,具有极高的性价比。此外,MMR1采用了数据平衡策略,能够覆盖多样化的数学问题类型。
scaling-book 是一个全面的指南和资源库,专注于使用 JAX 扩展机器学习模型。它提供了详细的文档、实用的代码示例,涵盖了从基础到高级的扩展方法,并与现代机器学习框架和工具集成。该项目还支持社区驱动的更新和贡献。
code2prompt 是一个开源工具,旨在将代码库快速转换为适合与大型语言模型(LLM)交互的提示词。它通过遍历项目目录,构建树结构,收集每个文件的信息,并自动生成格式化的 Markdown 提示词文档,从而简化与 AI 模型的沟通过程。支持多种自定义选项,如模板生成、文件过滤、Git 信息集成等。
Customized-Areal-Screen-Saver 是一个专为 macOS Sonoma 系统设计的自定义屏保项目。用户可以通过该项目创建和定制个性化的屏保内容,包括图片、视频等。项目提供了多种屏保样式和过渡效果,允许用户设置屏保的显示时间和频率。此外,该项目为开源项目,用户可以根据需求进行二次开发,进一步扩展其功能。
kaggle_salt_bes_phalanx 是一个专注于地震图像中盐体分割的项目,采用卷积神经网络(CNN)集成方法,结合半监督学习技术,旨在提高分割精度。该项目特别适用于地质分析、油气勘探等领域,能够有效识别地震图像中的盐体。项目开源,代码可在GitHub上获取,适合研究、开发和教育用途。
AI吟美是一款多功能的人工智能虚拟主播(Vtuber),支持唱歌、绘画、语音合成、聊天等功能,并可在Bilibili直播中与观众互动。该项目集成了多个AI模型和服务,如GPT-SoVITS、Bert-VITS2语音合成、fastgpt聊天模型、stable-diffusion绘画模型等,支持多种舞蹈形式、场景切换和换装,提供详细的安装指南和配置文件,支持在Windows和Linux系统上运行,并且是开源项目,欢迎开发者贡献代码和提出改进建议。
MultiPost-Extension是一个基于浏览器自动化技术的开源插件,专为内容创作者设计,能够一键将内容发布到多个平台,极大地提高了内容分发的效率。该插件不仅支持多平台内容同步,还易于集成到现有系统中,并且允许用户根据需求自定义和扩展其功能。
All Atom Diffusion Transformers 是一个统一的框架,用于生成分子和材料,为化学和材料科学领域带来革命性突破。它通过打破领域限制,实现了分子和材料的统一生成,并利用 Transformer 架构进行高效生成。该项目开源代码,促进了研究和创新。
Instant Apply 是一个概念验证项目,旨在实现 Cursor 的 Instant Apply 特性。目前仅支持在 Apple 设备上使用 MLX 进行代码编辑,能够快速应用代码更改,提升开发效率。
machina是一个基于PyTorch构建的深度强化学习框架,旨在简化和加速深度强化学习算法的研究和开发。它提供了多种深度强化学习算法的支持,并具备高效的并行计算能力。框架采用模块化设计,便于扩展和定制,同时提供了丰富的文档和示例代码,帮助用户快速上手和深入理解强化学习原理。
ChatGLM-6B-QLoRA项目利用peft库实现了对chatGLM-6B和chatGLM2-6B模型的4bit QLoRA高效微调,并提供了模型的合并和量化功能。该项目包含了完整的训练和推理流程,以及推理性能测试,旨在优化模型存储和计算资源的使用。
该项目是一个精选论文列表,专注于为多模态大语言模型(MLLM)提供高效的Token合并、减少、重采样和丢弃方法。通过整合多篇相关论文,帮助开发者和研究人员理解和实现高效的Token管理策略,从而优化多模态大语言模型的Token处理效率。
Speech Trident 是一个专注于收集和整理语音/音频领域的大语言模型(LLM)、表示学习和编解码模型的资源列表。该项目旨在为研究者和开发者提供一个全面的参考和指南,帮助他们快速找到相关的模型和工具,推动语音/音频领域的机器学习研究和应用。
MotleyCrew是一个开源项目,旨在高效整合多个AI Agents,支持多种流行框架如Langchain、LlamaIndex、CrewAI等,提供输出结果验证工具,让用户能够专注于高层次设计,而处理数据传输和功能交互等细节部分。
Awesome-Inference-Time-Scaling是一个专注于AI推理时间优化的资源库,旨在帮助用户提升模型推理效率,解决推理速度慢和资源浪费的问题。该项目收录了2025年最新的论文,涵盖了多种模型优化方法,如MCTS和Test-Time Scaling,并提供代码和数据,方便用户复现和应用这些优化方法。
Kokoro Web 是一个完全免费且开源的在线AI语音生成工具,利用人工智能技术将文本转换为语音。用户可以通过简单的操作,选择不同的语音选项,生成高质量的语音输出。
Code-R1通过可靠的奖励机制重现代码生成的R1流程,旨在提升代码生成的精准度和效率。该项目利用少量样本进行训练,性能超越大规模参数模型,并提供安全、可扩展的沙盒化执行环境,有效减少奖励误判,确保代码生成的高效性和安全性。
TritonAcademy是一个旨在解析GPU内核语言的项目,通过提供高层次的抽象和详细的代码示例,使GPU编程变得更加简单易懂。项目不仅包含丰富的代码示例和注释,还深入探讨了反向传播的数学原理,帮助开发者更好地理解和实现GPU内核开发。
D2 是一种现代的图表脚本语言,能够将文本转换为高质量的图表。它支持多种图表类型,如流程图、时序图、架构图等,语法简洁,易于学习和使用。D2 具有高度可定制化特性,支持自定义主题和样式,并且与多种平台和工具集成,如GitHub,便于版本控制和协作。D2 是一个开源项目,拥有活跃的社区支持。
Airweave是一个将任意应用转化为Agent知识库的工具,支持多种数据源集成,实现数据与AI的无缝对接。它适用于多租户SaaS场景,提供自动化同步与增量更新功能,确保数据高效处理。
Benchy是一个让AI性能对比变得直观的工具,支持实时对比不同AI模型的性能、价格和速度。它提供多种微应用,以满足不同场景的测试需求,帮助用户快速评估和选择最适合的AI模型。
form-builder 是一个动态表单构建工具,允许用户在 web 应用程序中无缝创建、自定义和验证表单。它支持多种输入类型,并利用 Zod 库进行实时验证,确保数据的完整性。该项目拥有高度的社区活跃度,已有 196 个分支。