STORM是斯坦福大学开发的创新型AI写作工具,结合GPT-4和Bing搜索,能够自动深挖资料、生成大纲、模拟专家对话,并逐步完成整篇文章或结构化报告的撰写。它支持多模型协作、文献引用管理、本地知识库集成,并能一键导出PDF或LaTeX格式,广泛应用于学术研究、市场调研等领域,显著提升写作效率和数据准确性。
S3LLM,一种基于大型语言模型的框架,旨在提高对大规模科学软件的理解。该框架能够通过用户友好的界面,与用户进行交互式对话,同时分析源代码、代码元数据以及技术报告。
长文本场景下的高效解码方案,让大语言模型推理不再卡顿。
PaddleNLP是一个开源的自然语言处理工具包,集成了ERNIE 3.0等预训练模型,支持零代码实现文本生成、信息抽取等多种任务,中文任务的F1值可达92.1%。
Z-Ant(Zig-Ant)是一个开源SDK,旨在简化在微控制器上部署神经网络(NN)。Zant使用Zig语言编写,优先考虑跨兼容性和效率,提供导入、优化和无缝部署NN的工具,专为特定硬件量身定制。
Magma是微软开源的多模态AI Agent基础模型,能够处理图像、视频、文本等多种数据类型,并具备心理预测功能,跨越数字和物理世界。它为虚拟与现实世界的交互提供强大支持,适用于复杂的交互任务,如UI导航和机器人操作,并在这些任务上达到SOTA性能。Magma还具备从海量未标注视频中学习的能力,展现出强大的泛化能力。
该项目是一份详细的教程,旨在帮助用户从零开始理解和实现Llama 3模型。教程基于naklecha/llama3-from-scratch的增强版本,进行了全面的改进和优化。通过清晰的目录结构、大量详细的代码注释、完整注解的矩阵维度变化、丰富的原理类说明和细节推导,用户可以轻松掌握Llama 3模型的实现原理和推理流程。此外,项目还提供了中英双语的代码文件,确保学习无障碍。
Overcomplete是一个基于视觉的自编码器工具箱,为深度学习模型的可解释性研究提供强大支持,旨在帮助研究人员更好地理解和分析复杂的视觉模型。
一种合规预测和在无分布假设下评估不确定性的介绍性框架。
本项目实现了2023年的论文,利用大型语言模型探索数学与电气工程课程的内容和结构。
SurveyX 是一个基于大语言模型的开源工具,旨在自动化生成高质量学术论文和调研报告。用户只需提供论文标题或关键词,即可快速生成符合主题的学术内容。该工具支持多个领域,如计算机视觉、医学影像、网络安全等,并提供了30多个已生成的论文示例,帮助用户进行学术研究和文献调研。
Web-Check 是一款功能强大的开源网站分析工具,能够快速、准确地扫描并分析任何网站的 IP 信息、SSL 链、DNS 记录、Cookie、域名信息、服务器位置、网站性能等。它支持在线使用,无需安装,完全免费,适用于网站管理员、开发者以及网络安全审计人员。
Ray是一个由UC Berkeley开源的分布式计算框架,专注于简化大规模机器学习模型的训练与部署。它提供灵活的任务调度和资源管理,支持高效的资源利用和成本节约,让开发者能轻松扩展计算能力,处理复杂模型训练任务。Ray还具备弹性伸缩、异构调度和容错机制等特点,确保计算稳定性和效率。
该项目实现了基于Roboflow推断API、DeepSort和OpenAI CLIP的目标跟踪功能,适用于各种实时监控和图像分析场景。
EasyR1是一个基于veRL的高效、可扩展的多模态强化学习训练框架,旨在帮助AI开发者高效训练各种模型,提供灵活的实验和开发环境。
Story-Flicks是一款利用AI技术,根据输入的故事主题自动生成完整视频的工具。它能够一键生成包含故事内容、图片、音频和字幕的高清视频,特别适合制作儿童故事、营销视频和教育内容。支持多种文本和图像生成模型,如OpenAI、阿里云和DeepSeek,并允许用户自定义故事段落数量、配音风格和视频语言。
一种利用符合预测技术进行风险管理的方法论。
为多模态研究者提供强化学习驱动的推理大模型(MLLM)资源库。汇集了多模态大模型推理领域的前沿论文和开源项目,提供了丰富的模型资源和代码链接,助力研究者快速上手,覆盖从文本到图像生成的多种应用场景。
ChatPilot是一款基于LangChain的智能对话助手,集成了Google搜索、文件网址对话(RAG)和代码解释器功能,复现了Kimi Chat的交互体验。支持OpenAI/Azure API,提供前后端分离的服务架构,前端使用Svelte,后端使用FastAPI。
hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数(HL-Gauss),为回归任务提供了全新的视角,能够有效提升模型的性能。
Minions是一个通信协议,旨在实现本地小模型与云端大模型之间的高效协作,能够显著降低云端处理成本,同时灵活适配多种模型以满足不同需求。该项目结合了最新的研究成果,支持Ollama和OpenAI等前沿技术,极大地提升了模型的处理效率和灵活性。
LUCY是一款专注于语言理解和控制的AI项目,致力于打造早期阶段的智能交互系统。它能够通过情感控制和自然对话能力,使用户体验更加丰富和人性化,并支持高效的功能调用演示来完成复杂任务。
DiffTSR是一个专注于使用扩散模型进行盲文本图像超分辨率的项目,旨在提高低分辨率文本图像的细节和清晰度,提升图像质量,为计算机视觉和图像处理任务提供支持。
该项目为初学者提供了学习变分自编码器(VAE)、生成对抗网络(GAN)以及条件变分自编码器-生成对抗网络(CVAE-GAN)的最佳起点。项目包含自编码器(AE)、去噪自编码器(DAE)、变分自编码器(VAE)、生成对抗网络(GAN)、条件生成对抗网络(CGAN)、深度卷积生成对抗网络(DCGAN)、WGAN、WGAN-GP、VAE-GAN和CVAE-GAN,所有模型均基于PyTorch框架实现。
Open-Reasoner-Zero是一个开源的强化学习项目,旨在支持大规模推理模型的训练。该项目提供了一个高效的训练框架,能够在较少的训练步骤下实现卓越的性能,从而推动AI智能化应用的发展。
DeepSeek Profile Data 是一个深度剖析计算与通信重叠策略的工具,旨在分析 V3/R1 版本中计算与通信重叠的策略,并提供了详细的性能分析数据。它通过 PyTorch Profiler 采集数据,支持在浏览器中直接可视化,帮助用户优化训练和推理框架的性能。
大语言模型在隐空间推理的论文库,汇集了LLMs隐空间推理的前沿研究,覆盖预训练、微调、多模态等多个方向,定期更新,紧跟最新学术动态,提供丰富的论文链接和代码资源,助力研究与实践。
Roboflow Notebooks 是一个全面的计算机视觉教程集合,涵盖了从基础架构到前沿模型的各类内容。项目提供了47个前沿模型教程,如YOLO11、SAM 2等,以及20种计算机视觉技能实战,如车辆速度估计、自动化标注。此外,项目每周更新视频教程,确保用户能够紧跟技术前沿。
Llama Cookbook是一个全面的指南,旨在帮助开发者轻松掌握LLaMA模型的推理、微调以及端到端应用的开发,适合从初学者到高级用户。
Claude Code 是 Anthropic 开源的一款在终端中运行的 AI 编程助手,旨在帮助开发者理解和操作本地代码库。它能够执行基本编码任务、解释复杂的代码逻辑、处理 Git 工作流程(包括冲突解决、自动合并、提交和 PR 创建)、修复代码错误、进行自动化测试、代码格式化等。通过自然语言命令,开发者可以快速执行常规任务,简化复杂代码段,并自动化 Git 流程。