OpenCompass是一个专为AI模型评测设计的开源框架,旨在提供全面客观的性能评估工具。它支持多种语言模型的标准化测试,帮助开发者深入了解模型能力与局限。
Vicinity是一个轻量级的最近邻搜索工具库,提供灵活的后端支持。它统一了不同向量检索方案的接口,支持HNSW、FAISS、Annoy等多种向量索引后端,可进行性能评估和对比。其特点是依赖少、使用简单、支持序列化存储,适用于向量相似度搜索场景。
Diamond Env是一个为强化学习设计的标准化环境,基于Minecraft中的Diamond任务。它提供了一致的实验条件,支持多种强化学习算法,并允许用户自定义任务和奖励机制。该环境适用于研究Minecraft中的智能体行为,并可作为基准环境进行性能评估。
MergeUI是一个直观的用户界面,旨在帮助用户探索在Hugging Face上合并的语言模型(LLMs)。通过合并模型,用户可以以低廉的成本创建强大的语言模型,无需GPU。该工具提供了有关模型合并的建议,帮助用户决定合并哪些模型以及使用什么合并策略。
META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。
mlx-benchmark是一个基准测试项目,旨在评估苹果的MLX操作在不同硬件平台上的性能,包括mlx GPU、CPU、torch MPS和CUDA。它提供了详细的性能评估,并且是一个易于使用的基准测试工具,支持用户自定义测试场景,帮助开发者更好地理解和优化他们的MLX操作。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
RAG-Survey是关于人工智能生成内容的检索增强生成(RAG)调查,提供RAG在AIGC领域的应用与技术综述,汇总相关论文与研究成果。
该项目记录了学习推荐系统过程中的知识产出,主要对经典推荐算法的原理进行解析,并提供代码实现示例。它支持多种推荐算法,易于扩展和修改,非常适合学习和研究推荐系统。
Alpaca 是斯坦福大学基于 LLaMa-7B 训练的开源语言模型,其性能可与 173B 的 GPT-3.5 媲美。通过优化数据集,Alpaca 能够在微调 7B 和 13B 参数的语言模型时显著提高效果。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
BotLab是一个帮助用户理解和测试游戏机器人(bots)的平台,专注于评估其可靠性、性能和安全性。用户可以使用BotLab来分析和优化游戏机器人,从而提高游戏体验和效率。
AAGPT是一个实验性开源应用,展示了大型语言模型(如GPT-3.5和GPT-4)的能力,适合研究和学习使用。它支持多种自然语言处理任务,便于社区的贡献与合作。
pyllms是一个用于与大型语言模型交互的Python库,提供了对多种模型的统一接口,简化了模型的调用和管理过程,同时支持模型的性能评估和比较。
LLM Zoo收集了各种开源和闭源语言模型的信息,包括发行时间、模型大小、支持的语言、领域、训练数据以及相关资源链接。旨在为自然语言处理(NLP)领域的研究人员提供参考,以帮助其选择适合其需求的模型。
API for Open LLMs 是一个为开源大语言模型提供统一后端接口的项目,支持多种开源大模型的调用,旨在简化与大语言模型的交互体验。通过提供类似于 OpenAI 的 API 使用方式,开发者能够更方便地集成和利用大语言模型的能力。
PyLLMCore是一个提供与大型语言模型轻量级接口的Python库,旨在简化与LLM的交互,使开发者能够轻松集成和使用各种语言模型。
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。