一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
用于微调和评估开源大型语言模型的工具集,目前处于早期开发阶段,旨在为研究人员和开发者提供一个强大、灵活且易于使用的解决方案。
由微软开发的工具,旨在简化创建、管理、调试和评估大型语言模型(LLM)提示(prompts)的过程,提高开发者的工作效率和生产力。
一个基准测试工具,用于研究和评估开源大型语言模型在软件工具操作方面的能力,提供了多样化的软件工具和易于使用的基础设施,可以直接评估每个模型的执行成功率。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
Lakera是一个专为保护组织免受生成AI应用相关威胁而设计的AI安全平台,提供多种产品,如Lakera Guard、Lakera Red和Lakera PII Detection,旨在增强AI系统的安全性。
llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。
RestGPT 是基于大型语言模型的自主代理的代码实现,通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来,解决与规划、API 调用和响应解析相关的挑战。
OpenFactCheck是一个开源的事实核查演示,专为大型语言模型(LLMs)设计,旨在整合各种事实核查工具,提供全面的事实核查流程。该项目支持多种核查工具的整合,使得用户能够高效地进行事实核查,并且由于其开源特性,开发者可以根据需求进行扩展和定制。
Helicone是一个开源平台,用于记录、监控和调试AI应用。它支持一行代码集成,提供使用情况追踪、LLM指标、提示管理等功能,适合开发者和团队使用。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
LLM Comparator是一个交互式数据可视化工具,旨在并排评估和分析大型语言模型的响应,由PAIR团队开发。
CodeRabbit是一个创新的AI驱动平台,旨在改进代码审查的方式。通过自动化审查,提升代码质量,同时显著减少繁琐的手动代码审查所需的时间和精力。该平台提供逐行反馈,建议改进和修正,增强代码的效率和稳健性。
论文介绍了通过边缘修剪找到变压器电路的技术,旨在有效识别和分析变压器电路,从而提高模型的可解释性。该技术可以帮助研究人员和开发者更好地理解变压器模型的结构及其工作原理。
首款利用大型语言模型(LLM)进行零样本漏洞发现的工具,能自动分析代码,检测远程可利用的安全漏洞,帮助开发者及时发现和修复潜在的安全隐患。