提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
llm-numbers是一个每个LLM开发人员都应该了解的工具,提供关键的统计数据和指标,帮助开发者深入理解模型性能。它支持多种语言模型的评估,并易于集成到现有的机器学习工作流中。此外,llm-numbers还提供可视化工具,以便展示模型数据,让开发者更直观地分析结果。
Langtail是一款创新的AI工具,旨在简化AI应用的开发和部署,尤其是大型语言模型(LLM)驱动的应用。它通过提供强大的调试、测试和监控功能,解决了应用开发中常见的不可预测行为问题,能够无缝集成到AI开发工作流中,提高生产力和效率,无论是优化AI提示还是将其部署为API端点。
这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型,支持在Apple M2 Ultra上进行高效的模型训练和推理,提供简化的模型权重下载和加载流程,同时兼容Python环境。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
ml-calibration是一个用于测量校准和绘制可靠性图表的工具包,提供了可视化方法来评估模型的校准程度,并生成可靠性图表以帮助分析模型的可靠性。该工具包支持多种校准方法的比较,易于集成到现有的机器学习工作流中。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准,提供多种评测任务,支持各种模型和算法的评估,易于扩展和定制,旨在推动中文NLP研究的发展。
OpenDelta是一个开源框架,旨在实现高效的参数调优(Delta Tuning),支持多种机器学习模型和任务,具有易于集成和扩展的特点,能够优化计算资源的使用。
LLMPruner是一款专为大语言模型设计的裁剪工具,旨在优化模型性能并减少其参数量。它支持多种模型架构,并提供可视化工具,方便用户了解模型结构和裁剪效果,易于与现有机器学习工作流集成。
Knostic是一款先进的AI工具,通过实施基于需要了解的访问控制,管理和控制大型语言模型(LLMs)的访问,确保企业能够安全高效地共享信息,防止数据过度共享,同时引导用户获取所需的精确信息。它与Microsoft Copilot等系统集成,提供精确个性化,提升了各行业的安全性和操作效率。
mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
llama-swap 是一个 HTTP 代理服务器,用于在需求时自动加载和切换模型。它支持动态切换 llama.cpp 或其他符合 OpenAI 兼容的后端服务器,如 vllm。该工具简化了模型调用流程,允许在请求中热切换模型,并且可以集成到现有应用程序中以增强模型调用能力。
CodeTF是Salesforce出品的一站式代码类LLM工具库,提供了一套统一的接口用于Code LLM的训练、推导和微调,支持多种模型,易于扩展和集成。
大型语言模型(LLM)的chat模板,用于支持transformers的chat_template功能,旨在为不同模型提供一致的输入格式,提供了多个流行模型的示例模板。该项目为开发人员提供了便捷的工具,简化了与不同语言模型的交互流程,确保输入格式的一致性,提高了开发效率。