OpenCompass开源项目 – AI模型评测开源框架

OpenCompass是一个专为AI模型评测设计的开源框架，旨在提供全面客观的性能评估工具。它支持多种语言模型的标准化测试，帮助开发者深入了解模型能力与局限。

OpenCompass的特点:

1. 多维评估：覆盖准确性、鲁棒性等多项指标
2. 自动化测试：通过脚本实现批量评测流程
3. 数据集集成：内置丰富基准数据集支持
4. 可视化分析：生成直观性能对比报告
5. 扩展支持：允许用户自定义评测任务

OpenCompass的功能:

1. 模型对比：评估不同模型优劣
2. 性能优化：识别模型改进方向
3. 学术研究：支持AI评测实验

相关导航

Composable Prompts官网 – 快速构建和测试LLM任务的平台

Composable Prompts是一个顶尖平台，旨在快速构建、测试和部署基于大型语言模型（LLMs）的任务和API。它为LLMs的世界带来了组合、模板、测试、缓存和可视化等功能，使开发者能够高效地创建强大的提示，重用它们，并在不同环境中进行测试。同时，它通过智能缓存优化性能和成本，并允许轻松切换模型和运行环境。

VerifAI’s MultiLLM官网 – 开源框架并行调用LLM

VerifAI的MultiLLM是一个开源框架，通过并行调用多个大型语言模型（LLM）并对其输出进行排名，以找到最佳结果（真实值）。该框架可扩展以支持新的LLM和自定义排名函数，从而评估来自不同LLM的多样化输出。

CRAG开源项目 – 综合性RAG基准测试工具

META发布的综合性RAG基准测试工具，专门用于评估检索增强生成(RAG)系统的性能。

Semantic Kernel CookBook开源项目 – 轻量级框架，快速构建智能应用

Semantic Kernel 是一个轻量级的开源框架，通过 Semantic Kernel 您可以快速使用不同编程语言(C#/Python/Java)结合 LLMs(OpenAI、Azure OpenAI、Hugging Face 等模型)构建智能应用。

LiveKit Agents开源项目 – 构建实时多模态AI应用的开源框架

LiveKit Agents 是一个完全开源的框架，旨在帮助开发者构建能够实时处理语音、视频和文本的多模态AI应用。它提供了一套完整的工具和接口，简化了AI代理的开发流程，集成了语音管道代理、多模态代理、实时媒体传输、任务调度、电话集成和数据交换等功能。开发者可以根据具体应用场景选择合适的模型和服务，并与 LiveKit 的 Telephony Stack 无缝集成，使代理能够拨打或接听电话。

GPT Computer Assistant开源项目 – 跨平台AI助手框架

GPT Computer Assistant（GCA）是一个开源框架，旨在简化Windows、macOS和Ubuntu上的计算机使用。它通过模型上下文协议（MCP）和模块化架构，能够执行类似人类的操作，如点击、阅读、滚动和写入。GCA还支持高级功能，如数据库表分析、云安全设置配置等，帮助用户构建垂直AI代理，并实现高效的人机交互。

MetaGPT开源项目 – 多角色智能协作框架

MetaGPT 是一个多智能体框架，能够扮演不同的角色，如工程师、产品经理、架构师和项目经理。它通过自动优化提示词、生成产品需求文档、设计文档、任务分配与管理、代码仓库生成等功能，协助用户完成复杂的任务。MetaGPT 还支持多角色协作，自动生成软件开发流程和标准操作程序（SOP），适用于各种项目管理和开发需求。

VectorLM开源项目 – 优化中型模型在资源受限环境的训练

建立在HuggingFace模型和PyTorch Fully Sharded Data Parallelism基础上的训练套件，旨在优化吞吐量，简化在资源受限环境中训练中型模型的分布式方案设置工作流程，尤其适用于学术集群。

llm.c-用纯C实现GPT开源项目 – 2模型训练

一个用纯C语言实现的项目，旨在训练GPT-2模型，代码量仅为1000行，具有高效的内存管理和性能优化，方便扩展和修改。

A.I Framewerks官网 – 强大的人工智能框架

A.I Framewerks是一个强大而全面的人工智能框架，旨在帮助开发者轻松创建和部署AI模型。它提供广泛的功能和工具，以加速开发过程并提高性能。

XAIlearn开源项目 – 自适应学习的开源框架

XAIlearn是一个专为自适应学习设计的开源框架，为开发者提供构建个性化AI学习系统的工具。它支持动态调整学习策略，优化教育与训练效果。该框架内置了学习行为评估工具，能够实时提供学习推荐，并兼容多种教育模型框架，适用于教育系统、技能培训和学习研究等多个领域。

hash-it开源项目 – 轻量高效的哈希生成库

hash-it 是一个轻量且高效的库，用于生成一致性哈希值，具有极低的碰撞率。它支持多种数据类型，包括对象、数组和原始类型，并提供了可定制的哈希选项。该库兼容浏览器和Node.js环境，适用于多种场景，如数据比较、存储、唯一标识生成、数据完整性检查以及性能优化等。

Alpaca-斯坦福开源的高效语言模型

Alpaca 是斯坦福大学基于 LLaMa-7B 训练的开源语言模型，其性能可与 173B 的 GPT-3.5 媲美。通过优化数据集，Alpaca 能够在微调 7B 和 13B 参数的语言模型时显著提高效果。

Drive Like A Human开源项目 – 重新定义自动驾驶的智能交互

用大型语言模型重新思考自动驾驶，使用GPT-3.5作为默认的大型语言模型(LLM)，介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法

OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

暂无评论

暂无评论...