SWELancer-Benchmark是一个专为评估大型语言模型(LLMs)在复杂编程任务中表现而设计的项目。它提供真实世界的软件工程任务数据集,旨在挑战和测试LLMs在自由职业软件工程中的实际应用能力。该项目为研究和开发提供了完整的代码和工具支持,助力研究人员和开发者深入探索LLMs在真实环境中的表现。
Verdict旨在通过扩展推理时计算,解决传统大型语言模型(LLM)评估中的不稳定性和可靠性问题。其核心价值在于提供更高效、更可靠的评估方法,帮助研究人员和开发者更好地理解和优化AI模型的性能。
Exa & Deepseek Chat App 是一个开源的智能聊天应用,结合了Exa的API进行网页搜索和Deepseek R1进行推理,使得聊天更加智能和高效。通过Exa API,该应用能够快速搜索并获取最新的网页信息,而Deepseek R1则提供了强大的推理能力,确保回答的准确性和智能性。作为一个开源项目,用户可以自由定制和扩展该应用,以满足不同的需求。
Robopoker是一款用Rust编写的德州扑克AI工具,旨在帮助玩家学习、分析和解决无限制德州扑克问题。它基于蒙特卡洛反事实遗憾最小化算法,支持层级K均值聚类,能够高效处理复杂牌局,并且性能卓越,手牌评估速度远超传统算法。
MegaLoc是一款专为各种定位任务设计的强大图像检索模型,能够在海量图像中精准找到目标,是视觉定位任务的利器。
Cline MCP Marketplace是一个专为开发者设计的平台,旨在简化MCP服务器的发现和安装过程。通过该平台,开发者可以轻松找到并安装所需的MCP服务器,同时社区成员也能提交自己的资源,丰富平台内容。此外,平台与Cline深度集成,帮助AI工具快速接入MCP服务器,提升开发效率。
微软全新推出的AI智能体入门基础课程,专为初学者设计,涵盖构建AI智能体的基础知识。课程共包含10个教学单元,每个单元专注于一个特定主题,并提供可运行的代码示例。课程支持多语言版本,包括中文翻译,方便全球学习者参与。此外,课程还提供额外学习资源的链接,并计划下个月发布配套视频,以进一步辅助学习。
这是一个专业整理的时间序列自监督学习(SSL4TS)资源列表,涵盖了相关论文、代码、数据集等。该项目旨在为研究者和开发者提供全面的资源支持,帮助他们深入了解和应用自监督学习技术在时间序列数据上的最新进展。
SWE-RL是Meta发布的第一个使用强化学习(RL)专门用于增强大型语言模型(LLM)处理现实世界软件工程(SE)能力的RL方法。该项目专注于垂直细分领域的RL推理大模型,具有处理GitHub上issue问题、软件代码生成和项目bug修复等能力。通过开源软件演进数据和基于规则的奖励机制,推动大型语言模型推理能力的强化学习项目。
ConsiStory是英伟达研发的无训练框架,专为一致性图像生成而设计,支持SDXL和Stable Diffusion 3等主流架构。该框架通过先进的注意力机制和特征共享技术,确保在多人场景中主体一致性保持率高达98%,并在性能上较ControlNet提升23%。此外,ConsiStory还提供了布局多样性控制功能,允许随机生成背景的同时保持主体不变,同时兼容多种文生图模型,适用于广泛的图像生成任务。
ThinkDiff是一个创新的扩散模型,通过将视觉语言模型与大型语言模型解码器对齐,简化了训练过程,并显著提升了生成图像的质量和多模态上下文推理能力。该项目在CoBSAT基准测试中取得了显著的准确率提升,仅需5小时训练,且仅使用普通图像-文本对进行训练,无需复杂的多模态数据集。
node-DeepResearch 是一个深度研究型的AI搜索工具,能够持续搜索和阅读网页,直到找到答案或超出token预算。该项目由Jina AI开源实现,使用gemini进行LLM操作,brave作为搜索引擎,jina reader用于阅读网页。其实现原理是在一个循环中进行搜索、阅读和推理,直到找到答案。
mcp-go是Model Context Protocol (MCP)的Go语言实现,旨在为LLM(大型语言模型)应用与外部数据源和工具的无缝集成提供强大支持。通过简化服务器管理和减少代码量,mcp-go帮助开发者快速构建高效的LLM应用。
SWE Arena 是一个开源平台,旨在为自动化软件工程提供强大的代码执行和评估能力。它支持多种编程语言,提供安全的沙箱环境,自动管理依赖,并支持实时代码修改与反馈,从而显著提升开发效率。
Huggingface 整理并发布了关于 Deepseek R1 的所有重要内容和社区工作,包括评估分数复现、训练管道复现、合成数据生成流程、重要人物对 R1 模型的表态以及尝试复现 R1 的开源项目。该项目旨在为研究人员和开发者提供一个全面的资源,以便更好地理解和复现 Deepseek R1 模型。
Kura 是一款基于语言模型的用户行为分析工具,旨在帮助用户深入理解用户行为,同时确保不泄露个人隐私。它通过递归聚类和自定义元数据提取等功能,满足个性化需求,并且是开源的,可以自由应用于各类数据。
Arc Virtual Cell Atlas 是一个加速虚拟细胞模型创建的高质量数据集宝库,汇集了超过3.3亿细胞数据,涵盖观察性和干预性数据。项目提供Tahoe-100和scBaseCamp两大核心数据集,并且数据持续更新,助力生命科学研究。
llm-commit是一个轻量化的库,专门用于生成git commit信息。它旨在简化开发流程,减少开发者在提交代码时手动输入commit信息的时间,从而提高开发效率。
Open-R1-Multimodel是基于Huggingface的Open-R1和deepseek-ai/DeepSeek-R1实现的多模式R1模型。它集成了Qwen2-VL系列、Aria-MoE等VLM transformers,并开源了首批8k专注于数学推理的多模态强化学习训练示例。数据由GPT4o创建,具有推理路径和可验证答案,基于Math360K和Geo170K数据集。
MCP Swift SDK 是为Swift开发者设计的标准化解决方案,旨在简化与大型语言模型(LLM)的交互过程。该SDK完整实现了MCP协议,支持构建客户端和服务器端应用,显著提升开发效率。通过提供工具输入模式自动生成等功能,开发者可以更轻松地集成和扩展与LLM的交互能力。
dpo-prefix-sharing 是一种用于加速直接偏好优化(DPO)的技术,通过前缀共享显著提升训练速度,同时保持模型精度。该项目特别适用于多轮对话和总结任务,能够在不牺牲精度的情况下,最高实现1.41倍的加速效果。它支持多种模型,具有强大的适配性和扩展性,能够广泛应用于不同的场景。
awesome-deepseek-integration 是 DeepSeek 官方提供的开源项目,旨在展示如何轻松将 DeepSeek 大模型的能力接入各类软件。该项目涵盖了多种应用程序、Agent框架、聊天插件、浏览器插件、编程器插件等,提供了丰富的集成示例和详细的文档,支持多种编程语言和框架,持续更新并得到社区的支持和贡献。
jepa-intuitive-physics是一个通过自然视频的自监督预训练,让机器学会直观物理理解的项目。它利用自监督学习方法,无需标注数据即可训练,提供了完整的代码和数据,支持多种模型评估,为研究直观物理理解提供了强大的工具。
YOLOv12是YOLO系列的最新版本,专注于实时目标检测和特定物体的跟踪。相比于YOLOv11,YOLOv12在延迟和准确性上都有1-2%的提升,采用强大的注意力机制,显著提升了性能。该模型在T4 GPU上仅需1.64ms完成推理,mAP高达40.6%,超越了同级别模型。YOLOv12广泛应用于实时监控、自动驾驶、工业自动化等领域,支持在各种设备上进行实时推理。
LLM Data Scrapers 是一个开源项目,旨在为大型语言模型(LLM)的训练和推理提供高效的数据抓取工具。该项目汇集了多种开源工具,覆盖了从代码库、网页到PDF文档等多种数据源,简化了数据收集和预处理流程,帮助用户高效地获取和转换数据,以便用于LLM的训练和推理。
Namo-R1是一款仅需CPU即可实时运行的500M参数视觉语言模型,能够轻松超越Moondream2和SmolVLM。它不仅支持多语言OCR和图像描述等复杂任务,还完全开源,提供训练脚本和数据,便于用户进行二次开发和部署。
Markdownify是一个基于模型上下文协议(MCP)的服务器,能够将多种文件类型(如PDF、图像、音频、文档、表格、PPT等)以及网页内容(如YouTube视频、Bing搜索结果)转换为Markdown格式。它操作简单,支持开箱即用,适合需要将复杂内容快速转换为Markdown格式的用户。
DeepChat是一款基于Apache 2.0协议的开源AI客户端,连接强大AI与个人世界的智能助手。它支持多平台(Windows、macOS、Linux)、多模型云服务及本地模型部署,提供高效的多路聊天功能和完整的Markdown渲染。DeepChat深度整合了主流AI平台,实现智能联网搜索,采用模块化架构设计,支持快速迭代,并构建了MCP多模态处理中枢和企业级知识库系统,打造插件生态,支持功能扩展。
Awesome LLM OS 是一个关于大型语言模型操作系统的精选资源库,旨在帮助开发者和研究人员快速了解和探索LLM-OS的前沿研究、工具和项目。该资源库涵盖了20多篇顶级研究论文,提供多种开发接口和项目示例,并且是社区驱动,持续更新。
该项目旨在评测多个大模型在特定条件下的表现,包括Gemini、DeepSeek-R1、OpenAI-o1和claude-3.5-sonnet等。通过提供详细的评测数据,支持用户使用相同的测试prompt进行验证,帮助用户选择适合的大模型,并提供评测数据供进一步研究和分析。