PreDiff 是一个利用潜在扩散模型进行降水临近预报的项目,旨在高精度预测短期天气模式。该项目通过先进的扩散模型技术,能够在短时间内提供准确的降水预测,适用于气象预报和气候研究等领域。
Reasoning-Attack项目旨在揭示大型语言模型(LLM)在推理过程中的漏洞,特别是模型在特定查询下无法生成结束标记,导致资源耗尽的问题。通过实验验证,该项目展示了仅需少量攻击请求即可完全占用GPU资源,形成低成本DDoS攻击手段。此外,攻击查询可在同系列模型间转移,对开源开发生态构成威胁。项目提供了测试、评估和防御推理攻击的工具,帮助开发者和研究人员识别和分析不同模型在面对攻击查询时的表现。
FlashMLA 是 DeepSeek 开源的一个项目,已合并到 vLLM 中,旨在提高 MLA 模型的推理性能。该项目在吞吐性能上提升了 5%-10%,但会增加 1% 的延迟。目前仅支持 MLA 模型,并且仅适用于 Hopper 架构的显卡(如 H100,H200,H800)。
Megatron-VLM是一个专为视觉语言模型(VLM)训练设计的高效框架,支持大规模分布式训练,提供多种预训练模型支持,并采用高效的内存优化技术,显著提升训练效率,降低训练成本。
ProposalContrast是一个专注于LiDAR数据的无监督预训练项目,旨在提升3D目标检测模型的性能。通过无监督学习,该项目能够有效地利用LiDAR数据进行预训练,从而提高检测精度,特别是在LiDAR为基础的系统中表现尤为突出。
LongPO是一个让大语言模型在长文本上自我进化的项目,无需人工标注,能够轻松扩展上下文长度。通过自我进化机制,模型可以在长文本任务中表现更佳,同时短文本性能不降反升。
LLM Snake Arena是一个AI大模型的“贪吃蛇”竞技场,旨在让不同的大模型在游戏中一决高下。通过实时对战和前端展示,用户可以直观比较各模型的性能,并支持多种LLM提供商的扩展。
Huggingface 开源的一个项目,具备自主网页导航、页面滚动和搜索、文件下载和处理、数据计算等能力。该项目旨在简化自动化网页浏览和数据采集的过程,支持复杂的数据处理任务,帮助用户高效地完成数据分析与计算。
OpenVideo是一个专注于文本到视频生成领域的开源项目,旨在为AI研究者提供高质量、多样化的视频数据集。该项目不仅提供了超过106k+的720p视频片段,还支持多平台数据下载,包括ModelScope和HuggingFace。此外,OpenVideo还提供完整的数据收集、清洗和标注工具,帮助研究者更高效地进行视频数据处理和分析。
Crawl4LLM是由清华和卡内基梅隆大学联合开源的智能爬虫系统,旨在解决LLM预训练数据爬取效率低下的问题。通过优先爬取对LLM预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。该系统支持多种爬取模式,提供完整工具链,包括爬取网页、提取文档ID、获取文档内容,并可直接与DCLM预训练框架对接,简化预训练流程。
EmbodiedEval是一个专门用于评估多模态大语言模型作为具身智能体能力的项目。它提供了一个3D实时模拟环境,让模型能够在虚拟世界中执行各种具身任务。项目包含一个20GB的数据集,涵盖多种具身任务,并支持多种基线模型,方便进行对比评估。通过EmbodiedEval,研究人员可以深入研究和开发具身智能体的多模态大语言模型。
AdaMix 是一种用于大语言模型参数高效调优的技术,通过混合多个适配器来实现。它旨在在资源有限的情况下,通过精细调整模型来提升特定任务的性能。
MaxDiffusion是一个专注于AI扩散模型的高效实现与优化的项目,旨在为大规模训练和推理提供强大的支持。它支持多种主流扩散模型,并通过优化的TPU和GPU加速显著提升推理速度。此外,项目还引入了Flux LoRA等创新功能,进一步提高了推理效率。
Magma是一个多模态代理AI模型,能够根据输入的文本和图像生成文本。该模型专为研究目的设计,旨在共享知识并加速多模态AI的研究,特别是多模态代理AI。Magma是第一个多模式AI代理的基础模型,旨在处理虚拟和现实环境中的复杂交互。它作为单一模型具有通用的图像和视频理解能力,并能生成目标驱动的视觉计划和动作,使其能够灵活地完成不同的代理任务。Magma在各种多模式任务上实现了最先进的性能,包括UI导航、机器人操作以及通用图像和视频理解,特别是空间理解和推理。此外,Magma还被设计为从未标记的视频中进行可扩展地学习,从而具有很强的泛化能力,适合现实世界的应用。
R1-Nature项目致力于在小模型(0.5B到3B)上复现R1的推理能力,并探索强推理的核心——思考过程性内容。通过实验验证,该项目揭示了思考内容在AGI/ASI中的核心地位,并提出了“思维链推理爆炸”现象及其解决方案。
Mahilo是一个灵活的多Agent系统框架,旨在让Agent在人类监督下协同工作,共享上下文信息,从而提升复杂任务的处理效率。该框架支持实时语音交互,采用WebSocket实现多用户同时通信,提供灵活的通信模式,满足多种场景需求。
Verdict旨在通过扩展推理时计算,解决传统大型语言模型(LLM)评估中的不稳定性和可靠性问题。其核心价值在于提供更高效、更可靠的评估方法,帮助研究人员和开发者更好地理解和优化AI模型的性能。
RealCam-Vid是一个专为生成模型设计的高质量可控视频数据集,旨在助力动态场景与相机运动的统一学习。该数据集结合了动态场景与绝对尺度的相机轨迹,填补了现有数据集的空白。通过提供高精度的相机姿态注释,RealCam-Vid显著提升了模型对真实世界的泛化能力。数据来源广泛,涵盖了10种以上的场景类型,使其成为研究和开发视频生成模型及相机控制算法的理想选择。
MUG-U是一个强大的多模态大语言模型(MLLM),支持文本、图像、视频等多种输入,能够帮助用户轻松完成复杂的多模态任务。它在多个基准测试中表现卓越,平均准确率高达71.4%,并提供简单易用的API接口,方便快速上手。
DeepSeek-V3 / R1 推理系统是一个通过大规模跨节点专家并行(Expert Parallelism, EP)实现更高吞吐量和更低延迟的推理系统。该系统采用多机多卡的专家并行策略,通过增加 batch size 提高 GPU 矩阵乘法效率,并通过分散专家计算降低延迟。此外,系统还采用了计算通信重叠优化、负载均衡优化、双 batch 重叠策略以及针对不同阶段的负载均衡器设计,以进一步提升系统性能。
AnoDDPM是一个基于去噪扩散概率模型(DDPM)的异常检测工具,利用Simplex Noise进行噪声处理,能够有效检测图像或视频中的异常。该项目特别适用于工业缺陷检测等场景,提供了一种新颖的异常检测方法。
Stocks Insights AI Agent是一款基于AI驱动的全栈应用,旨在通过AI技术快速获取股票数据与新闻。该工具能够自动从网上收集股票价格、公司新闻等,并通过AI分析以图表、文字等形式展现。它利用LangGraph和LangChain实现高效的数据检索与分析,提供可视化图表,直观呈现股票走势。此外,它还定期异步抓取新闻和财务数据,分别存储在MongoDB和PostgreSQL数据库,并将新闻数据同步到ChromaDB向量数据库,以便LLM进行语义搜索。
SLAB是一个高效的Transformer模型,采用简化的线性注意力机制和渐进重参数化批归一化技术,旨在提升模型的计算效率和性能。
Caldera是一种后训练压缩方法,通过低秩、低精度分解技术来表示大型语言模型的权重矩阵。该方法在少于2.5比特/参数的极致压缩下,性能超越现有技术,并支持低秩适应性微调,针对特定任务进一步优化。Caldera提供灵活的精度设置,可针对不同组件调整量化精度,以平衡性能和压缩率。
MolE是一个面向化学的基础模型,结合几何深度学习和Transformer架构,用于学习分子的有意义表示。该模型通过两步预训练过程:首先使用约8.42亿分子的图表示进行自监督学习,然后进行大规模多任务训练来整合生物信息。MolE可用于分子性质预测、分子嵌入计算和相似性搜索等任务,广泛应用于药物发现和化学信息学研究。
TrendPublish 是一款基于 AI 的趋势发现和内容发布系统,支持多源数据采集和自动化内容创作,特别适合运营者和自媒体人使用。它能够从 Twitter/X、网站等多种来源采集数据,利用 DeepseekAI 进行智能总结,并自动发布到微信公众号。系统还支持自定义文章模板、定时发布任务管理以及 Bark 通知系统集成,帮助用户高效管理和发布内容。
HiVT是一个用于多智能体运动预测的层次向量变换器,通过分层架构实现对多个智能体运动模式的高效预测,适用于实时场景和自主系统的协同导航。
Virtuoso-Medium-v2 是 DeepSeek-V3 的蒸馏模型,通过省略思考过程实现快速反应,同时保持较高的性能水平。该模型适用于需要即时响应和高效决策的场景。
Reddit主题分析器是一个基于Streamlit的应用程序,专门用于分析Reddit上任何主题的帖子。通过利用本地LLM模型,该工具能够提供更深入的分析,支持1到20篇帖子的灵活分析范围,并生成可下载的Markdown报告,方便用户分享分析结果。
GearBind是一个利用几何图神经网络预测蛋白质结合亲和力变化的工具,特别适用于抗体亲和力成熟的研究。该项目结合了预训练和对比学习的技术,能够高效地分析蛋白质结合亲和力的变化,为生物信息学和蛋白质工程领域提供了强大的支持。